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从 移动 电话 到 互联 网 ， 我 们 的 生活 越 来 越 依赖 于 以 无 缝 和 透明 的 方式 将 计算 机 和 其 他 设备 链接 在 一 起 
的 分 布 式 系 统 。 本 书 全 面 介绍 分 布 式 系统 的 设计 原理 和 实践 及 其 最 新 进展 ， 并 使 用 大 量 最 新 的 实例 研究 来 
阐明 分 布 式 系统 的 设计 与 开发 方法 。 

本 书 前 几 版 已 被 爱丁堡 大 学 、 伊 利 诺 伊 大 学 、 卡 内 基 - 梅 隆 大 学 、 南 加 州 大 学 、 得 克 萨 斯 A&M 大 学 、 
多 伦 多 大 学 、 罗 切 斯 特 理工 学 院 、 北 京 大 学 等 众多 名 校 选用 为 教材 。 第 5 版 在 上 一 版 的 基础 上 ， 新 增 了 三 章 
内 容 ， 分 别 介绍 间接 通信 、 分 布 式 对 象 和 组 件 、 分 布 式 系统 设计 ( 以 Google 为 例 ) 。 


本 书 网 站 www.cdk5.net 为 学 生 和 教师 提供 了 丰富 的 学 习 资 源 和 教学 资源 ( 源 代码 、 参 考 文献 、 教 学 幻 
灯 片 、 勘 误 等 ) 。 
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本 书 旨 在 全 面 介绍 互联 网 及 其 他 常用 分 布 式 系统 的 原理 、 体 系 结构 、 算 法 和 设计 ， 内 容 涵盖 分 布 式 系 
统 的 相关 概念 、 安 全 、 数 据 复制 、 组 通信 、 分 布 式 文件 系统 、 分 布 式 事务 、 分 布 式 系统 设计 等 ， 以 及 相关 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 秦山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 璧 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信 息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 人 迫切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真 正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 " 。 自 1998 年 开始 ， 我 们 就 
将 工作 重点 放 在 了 六 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 
合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 囊 选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, Brain 
W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. Ullman, 
Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry L. Peterson 
等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍 
藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 襄 助 ， 国 内 的 专家 不 仅 提供 了 
中 肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 人 迄今 , “计算机 科学 丛书 ”已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 深 
化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www. hzbook. com 


电子 邮件 : hzjsj@ hzbook. com = = 
联系 电话 : (010) 88379604 


邮政 编码 : 100037 
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ARER, MEFE CAMERAS: 概念 与 设计 》 第 3 版 翻译 到 今日 之 第 5 版 翻译 完毕 ， 
一 晃 10 年 的 时 间 过 去 了 。 

10 年 来 ， 随 着 网 络 技术 的 发 展 、 计 算 机 应 用 的 深信、 分布 式 系统 构建 技术 的 日 益 成 熟 ， 
分 布 式 系统 逐渐 深信 到 人 们 的 日 常 活动 ， 并 渗透 到 社会 、 经 济 、 文 化 生活 的 各 个 方面 。 现 
今 ， 分 布 式 系统 作为 主流 的 软件 系统 ， 已 成 为 人 们 工作 、 学 习 和 生活 中 不 可 或 缺 的 一 部 分 。 

本 书 介绍 了 分 布 式 系统 的 概念 、 基 本 原理 和 核心 技术 ， 履 盖 的 内 容 涉 及 分 布 式 算 法 、 中 
闻 件 、 系 统 服务 、 分 布 式 数据 处 理 等 。 阅 读 此 书 ， 既 可 以 从 系统 层面 了 解 分 布 式 系 统 构建 的 
基本 原理 ， 又 可 以 从 算法 层面 获知 分 布 式 系统 构建 的 核心 技术 。 

本 书 涉猎 广泛 、 内 容 充实 ， 氢 述 深入 浅 出 、 条 理 清晰 ， 每 章 后 都 配备 有 练习 ， 并 设 有 
Web 网 站 提供 大 量 额 外 的 资料 ， 因 此 ， 本 书 可 以 作为 大 学 高 年 级 本 科 生 和 研究 生 分 布 式 计 
算 课程 的 教材 或 参考 书 ， 而 且 本 书 对 分 布 式 计算 领域 的 科研 人 员 也 有 很 大 的 参考 价值 。 

值得 一 提 的 是 ， 本 书 的 作者 多 年 来 坚持 不 懈 地 总 结 分 布 式 计算 领域 的 研究 成 果 ， 不 断 地 
更 新 本 书 的 内 容 ， 使 其 能 与 时 俱 进 地 反映 新 的 、 已 可 用 的 系统 设计 原理 和 技术 (包括 算法 、 
策略 和 机 制 等 ) 。 例 如 ， 本 书 的 第 4 版 增加 了 对 等 系统 、 移 动 和 无 处 不 在 计算 、Web 服务 等 
相关 内 容 , 第 5 版 又 新 增 了 3 章 ， 分 别 是 第 6 章 “ 间 接 通 信 ”, 第 8 章 “ 分 布 式 对象 和 组 
件 ”， 第 21 章 “分 布 式 系统 设计 : Google 实例 研究 ”。 

本 书 第 3 版 至 第 5 版 由 中 国 科学 院 软件 研究 所 研究 员 人 金谷 弘 博士 组 织 并 主持 翻译 ， 有 具体 
情况 如 下 : 参与 第 3 版 翻译 工作 的 有 金 蓓 弘 、 李 剑 博 士 、 丁 柯 博士 、 刘 绍 华 博士 、 阮 形 博 
士 、 王 仲 玉 、 刘 志 军 ; 参与 第 4 AIBN ASA. BIERE KA. KR, R 
志 ; 在 第 5 版 中 ,新 增 的 第 6 章 由 张 扶桑 、 杨 宇 威 翻译 ， 第 8 章 由 张 利 锋 博士 翻译 ， 第 21 
章 由 李 森 、 杨 字 威 翻译 ， 金 蓓 弘 、 马 应 龙 博士 对 第 5 版 全 文 做 了 统 稿 。 

限于 时 间 和 和 水平， 翻译 中 不 当 之 处 在 所 难免 ， 欢 迎 广 大 读者 批评 和 指正 。 

感谢 机 械 工 业 出 版 社 华章 公司 在 引进 、 编 辑 、 出 版 本 书 过 程 中 所 做 的 努力 。 


BE 

中 国 科 学 院 软件 研究 所 

马 应 龙 

华北 电力 大 学 控制 与 计算 机 工程 学 院 
2012 年 12 月 于 北京 
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在 互联 网 和 Web 持续 发 展 并 且 对 我 们 社会 的 每 个 方面 都 产生 影响 的 时 候 ， 这 本 教材 的 
第 5 版 问世 了 。 本 书 的 介绍 性 章节 提 到 互联 网 和 Web 对 诸多 〈 如 金融、 商业 、 艺 术 、 娱 乐 
等 ) 应 用 领域 的 影响 以 及 对 信息 社会 的 普遍 影响 。 它 还 强调 了 诸如 Web 搜索 和 多 人 在 线 游 
戏 等 应 用 领域 中 的 需求 。 从 分 布 式 系统 的 角度 出 发 ， 这 些 开发 在 应 用 的 范围 、 多 个 现代 系统 
所 支持 的 工作 负载 和 系统 大 小 等 方面 正在 对 底层 系统 架构 提出 实质 性 的 新 需求 。 重 要 的 趋势 
包括 网 络 技术 上 不 断 增加 的 多 样 性 和 普遍 性 〈 包 括 不 断 增 加 的 无 线 网 络 的 重要 性 ) 、 移 动 和 
无 处 不 在 计算 元 素 及 分 布 式 系统 架构 的 集成 (这 导致 了 相当 不 同 的 物理 体系 结构 ) ， 还 包括 
支持 多 媒体 服务 的 需求 和 云 计算 模式 的 出 现 ， 这 些 都 对 分 布 式 系统 服务 的 观点 提出 了 挑战 。 

本 书 旨 在 提供 对 互联 网 和 其 他 分 布 式 系统 原理 的 理解 ， 提 供 这 些 系统 的 体系 结构 、 算 法 
和 设计 ， 展 示 它 们 如 何 满足 当代 分 布 式 应 用 的 需求 。 本 书 的 前 7 章 覆 盖 分 布 式 系 统 研究 的 基 
础 部 分 。 前 两 章 提供 对 主题 的 概念 性 概述 ， 介 绍 了 分 布 式 系统 的 特征 和 在 系统 设计 中 所 必须 
解决 的 挑战 : 最 重要 的 可 伸缩 性 、 异 构 性 、 安 全 性 和 故障 处 理 。 这 两 章 还 开发 了 用 于 理解 交 
互 过 程 、 故 障 和 安全 性 的 抽象 模型 。 随 后 是 其 他 基础 性 章节 ， 这 些 章节 介绍 了 网 络 研究 、 进 
程 间 通信 、 远 程 调用 、 间 接 通 信和 操作 系统 支持 。 

后 续 的 章节 涉及 中 间 件 这 个 重要 的 主题 ， 考 察 了 支持 分 布 式 应 用 的 不 同 的 方法 ， 包 括 分 
布 式 对 象 和 组 件 、Web 服务 和 对 等 解决 方案 。 接 下 来 的 章节 涉及 安全 、 分 布 式 文件 系统 和 
分 布 式 命名 系统 这 些 已 被 完善 的 主题 ， 然 后 介绍 了 与 数据 相关 的 重要 方面 (包括 分 布 式 事 
务 和 数据 复制 ) 。 与 这 些 主题 相关 的 算法 也 在 它们 出 现时 被 论 及 ， 或 者 在 专门 论述 定时 、 协 
调和 协定 等 单独 的 章节 中 介绍 。 

本 书 接着 论述 移动 和 无 处 不 在 计算 以 及 分 布 式 多 媒体 系统 这 些 新 出 现 的 领域 ， 然 后 给 出 
了 一 个 内 容 充实 的 实例 研究 ， 从 搜索 功能 和 由 Googe 提供 的 不 断 扩展 的 附加 服务 (例如 ， 
Gmail 和 Google Earth) 两 个 角度 ， 关 注 支 持 Google 的 分 布 式 系统 基础 设施 的 设计 和 实现 。 
最 后 一 章 综 述 了 本 书 所 介绍 的 所 有 这 些 体系 结构 概念 、 算 法 和 技术 ,诠释 了 如 何在 一 个 给 定 
应 用 领域 的 整体 设计 中 将 这 些 内 容 组 织 在 一 起 。 


第 5 版 新 增 部 分 


新 的 章节 

间接 通信 (第 6 章 ) ， 包 括 组 通信 、 发 布 - 订阅， 对 JavaSpaces、JMS、WebSphere 和 
Message Queues 的 实例 研究 。 

分 布 式 对 象 和 组 件 (第 8 章 ) ， 包 括 基于 组 件 的 中 间 件 和 对 企业 版 JavaBeans, Fractal 和 
CORBA 的 实例 研究 。 

分 布 式 系统 设计 : Google 实例 研究 (第 21 章 ) ， 专 门 针对 Google 基础 设施 的 新 的 大 的 
实例 研究 。 

新 增 到 其 他 章节 中 的 主题 ” 云 计 算 、 网 络 虚拟 化 、 操 作 系统 虚拟 化 、 消 息 传递 接口 、 无 
结构 的 P2P、 元 组 空间 、 与 Web 服务 相关 的 松 耦 合 。 

其 他 新 的 实例 研究 Skype, Gnutella, TOTA, L’imbo, BitTorrent, End System Multicast, 

ATHARE, SLUR PR, 


目的 和 读者 群 

本 书 可 用 做 本 科 生 教材 和 研究 生 的 人 门 教材 ， 也 可 作为 自学 教材 。 本 书 采 用 自 顶 向 下 的 
方法 ， 首 先 叙述 在 分 布 式 系统 设计 中 要 解决 的 问题 ， 然 后 ， 通 过 抽象 模型 、 算 法 和 对 广泛 使 
用 的 系统 进行 详细 的 实例 研究 ， 描 述 成 功 开发 系统 的 方法 。 本 书 覆盖 的 领域 有 足够 的 深度 和 
广度 ， 以 便 读 者 能 继续 研究 分 布 式 系统 文献 中 大 多 数 的 研究 论文 。 

本 书 针对 具有 面向 对 象 编程 、 操 作 系统 、 初 级 计算 机 体系 结构 等 基础 知识 的 学 生 。 本 书 
覆盖 与 分 布 式 系统 有 关 的 计算 机 网 络 ， 包 括 互 联网 、 广 域 网 、 局 域 网 和 无 线 网 的 基本 技术 。 
本 书 中 的 算法 和 接口 大 部 分 用 Java 描述 ， 小 部 分 用 ANSI C 描述 。 为 了 表述 上 的 简洁 明了 ， 
还 使 用 一 种 从 Java/C 派生 出 来 的 伪 码 。 


本 书 的 组 织 
下 图 显示 的 本 书 章节 可 归 在 7 个 主要 的 主题 领域 。 该 图 提供 了 本 书 的 结构 指南 ， 也 为 教 
师 、 读 者 提供 了 一 个 导航 路 径 ， 以 便于 他 们 理解 分 布 式 系统 设计 中 的 不 同 子 领域 。 


基础 分 布 式 算法 


1 分 布 式 系统 的 特征 14 时 间 和 全 局 状态 
分 布 式 系统 的 特 1 15 协调 和 协定 










2 系统 模型 
3 网 络 和 网 际 互 连 
4 进程 间 通 信 















8 分 布 式 对 象 和 组 件 
9 Web 服 务 


10 对 等 系统 


16 事务 和 并 发 控制 
17 分 布 式 事务 
18 复制 









新 的 挑战 


19 移动 和 无 处 不 在 计算 
20 分 布 式 多 媒体 系统 
内 容 翔 实 的 实例 研究 


21 分 布 式 系统 设计 : 
Google 实 例 研 究 


安全 性 
12 分 布 式 文件 系统 
13 名 字 服 务 








参考 文献 

万 维 网 的 存在 改变 了 书 〈 例 如 本 书 ) 与 源 材料 (包括 研究 论文 、 技 术 规 约 和 标准 ) 的 
链接 方式 。 许 多 源 文件 现在 可 从 Web 上 获取 ， 有 一 些 甚至 只 能 从 Web 上 获得 。 出 于 简洁 和 
可 读 性 的 考虑 ， 本 书 对 Web 参考 材料 采用 了 一 种 特殊 的 格式 ， 类 似 URL 参考 文献 ， 诸 如 
[ www. omg. org] 和 [ www. rsasecurity. com 1] 的 参考 文献 指 的 是 仅 能 从 Web 上 获得 的 文档 。 
在 本 书 结尾 的 参考 文献 清单 中 可 以 找到 它们 ， 但 是 完整 的 URL 仅 在 本 书 参 考 文献 的 联机 版 
本 (www. edk5. net/refs) 上 给 出 。 两 个 版 本 的 参考 文献 都 有 对 这 种 机 制 的 详细 解释 。 


与 第 4 版 相关 的 改变 


在 开始 新 版 本 写作 之 前 ， 我 们 针对 使 用 第 4 版 的 教师 做 了 一 个 调查 ， 并 根据 调查 结果 识 
别 出 所 需要 的 新 材料 和 需要 做 的 修改 。 此 外 ， 我 们 认识 到 不 断 增加 的 分 布 式 系 统 的 多 样 性 ， 
特别 是 从 当前 可 用 于 分 布 式 系统 开发 者 的 体系 结构 方法 的 范围 来 说 。 这 些 都 要 求 本 书 做 重要 
的 改变 ， 特 别 是 前 面 (基础 性 ) 的 章节 。 

总 之 ， 这 些 使 得 我 们 编写 了 全 新 的 3 章 ， 对 其 他 一 些 章节 做 了 实质 性 的 修改 ， 并 在 书 中 
多 处 补充 了 新 的 内 容 。 对 许多 章节 进行 了 改变 以 反映 所 描述 系统 的 新 的 、 可 用 的 信息 。 这 些 
修改 总 结 在 下 面 的 表格 中 。 为 了 帮助 已 使 用 过 第 4 版 的 教师 ， 只 要 可 能 ， 我 们 就 保留 了 前 一 
版 本 采用 的 结构 。 对 于 已 被 删除 的 材料 ， 我 们 把 它 放 在 与 书 配套 的 Web 网 站 上 ， 并 与 以 前 
版 本 中 被 删除 的 材料 放 在 一 起 。 这 些 被 删除 的 材料 包括 关于 ATM 的 实例 研究 、UNIX 中 的 进 
程 间 通信 、CORBA 〈 其 精 减 的 版 本 仍然 保留 在 第 8 章 中 ) Jini 分 布 式 事件 规约 和 (以 OG- 
SA 和 Globus 工具 集 为 特色 的 ) 网 格 中 间 件 ， 以 及 关于 分 布 式 共享 内 存 的 章节 〈 对 它 的 简明 
总 结 现在 被 包含 在 第 6 章 中 ) 。 

在 本 书 的 一 些 章节 中 ， 例 如 新 的 关于 间接 通信 的 章节 〈 第 6 章 ) 包含 了 许多 材料 。 教 
师 在 选择 2 ~ 3 项 技术 做 详细 的 讲解 之 前 可 以 选择 广泛 的 内 容 〈 例 如 ， 组 通信 ， 假 定 它 的 基 
本 角色 ， 以 及 发 布 - 订阅 或 消息 队列 ， 假 定 它们 在 商业 分 布 式 系统 中 的 盛行 ) 。 

章节 的 顺序 已 经 修改 以 容纳 新 的 材料 ， 并 反映 对 某 些 主题 相对 重要 性 的 改变 。 为 了 完全 
理解 某 些 主 题 ， 读 者 可 能 发 现 附带 一 个 参考 文献 是 必要 的 。 例 如 ， 如 果 第 9 章 引用 的 第 11 
章 安全 的 章节 被 理解 ,那么 第 3 章 关 于 XML 安全 技术 的 内 容 可 以 被 更 好 地 理解 。 

本 书 结构 变动 如 下 表 所 示 : 


新 增 的 章 : 
第 6 章 间接 通信 包括 了 第 4 版 的 事件 和 通知 
第 8 章 分 布 式 对 象 和 组 件 全 部 包括 了 来 自 第 4 版 的 CORBA 实例 研究 


第 21 章 ”分布 式 系统 设计 ，Google 实例 研究 包含 一 个 新 的 关于 Google 的 大 的 实例 研究 
有 实质 性 改变 的 章 : 





第 1 章 分 布 式 系统 的 特征 重要 材料 的 重 构 : 新 增 1.2 节 和 1.3.4 节 关 于 云 计算 的 介绍 

第 2 章 系统 模型 重要 材料 的 重 构 : 新 增 2.2 节 ，2.3 节 重 写 以 反映 新 书 的 内 容 和 相关 
的 体系 结构 观点 

第 4 章 ”进程 间 通 信 几 处 更 新 : 客户 -服务 器 通信 移 到 了 第 5 章 ， 新 增 4.5 节 (包括 了 关 
于 Skype 的 实例 研究 ) ， 新 增 4.6 节 ; 删除 了 对 UNIX BY IPC 的 实例 研究 

第 5 章 远程 调用 重要 材料 的 重 构 ;客户 -服务 器 通信 移 到 该 章 ; 介绍 了 从 客户 - 服务 


器 通信 到 RPC 以 及 RM 的 发 展 ， 事 件 和 通知 移 到 了 第 6 章 
增加 了 新 内 容 或 删除 了 内 容 的 章 ， 但 没有 结构 性 改变 ; 








第 3 章 网络 和 网 际 互 连 几 处 更 新 : 3.5 节 删 除了 ATM 的 材料 

第 7 章 操作 系统 支持 新 增 7.7 节 

第 9 章 Web 服务 9. 2 Wee TRS Te 

第 10 章 对 等 系统 新 增 10.5.3 节 讨 论 了 非 结 构 化 对 等 系统 包括 了 新 的 Gnutella 实例 研究 ) 
第 15 章 协调 和 协定 组 通信 的 材料 移 到 了 第 6 章 

第 18 章 复制 组 通信 的 材料 移 到 了 第 6 章 

第 19 章 移动 和 无 处 不 在 计算 19. 3. 1 节 增 加 了 元 组 空间 (TOTA 和 Limbo) 的 材料 


第 20 章 分 布 式 多 媒体 系统 20. 6 节 补 充 了 新 的 实例 研究 ， 增 加 了 BitTorrent 和 End System Multicast 


剩 下 的 章节 仅 做 了 少量 的 修改 。 
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Web 站 点 


和 以 前 一 样 ， 我 们 在 一 个 Web 站 点 中 提供 了 大 量 的 材料 ， 用 于 帮助 教师 和 读者 。 读 者 
可 通过 URL 访问 该 网 站 ，www. cdk5. net, 

该 Web 网 站 包括 : : 

教师 指导 ”我们 为 教师 提供 下 列 辅助 性 材料 : 

B 本 书 全 部 的 插图 (以 PowerPoint 文件 的 方式 ) ; 

图 按 章 给 出 的 教学 提示 ; 

E 练习 的 答案 (有 口令 保护 ， 仅 对 教师 开放 ) 。 

参考 文献 清单 ”本 书 结尾 处 的 参考 文献 清单 也 可 在 Web 网 站 上 找到 。 参 考 文献 清单 的 
Web 版 本 包含 可 联机 获得 的 材料 的 Web 链接 。 

勘误 表 ”给 出 书 中 的 错误 和 改正 清单 。 错 误 在 本 书 重 印 时 被 更 正 ， 针 对 每 次 印刷 提供 一 
个 单独 的 勘误 表 。( 鼓励 读者 报告 遇 到 的 任何 明显 的 错误 到 下 面 的 电子 邮件 地 址 。) 

补充 材料 ”我 们 为 每 一 章 提供 一 套 补 充 材 料 。 包 括 书 中 程序 的 源 代码 和 相关 的 阅读 材 
料 ， 主 要 是 本 书 上 一 版 本 有 的 但 在 本 版 本 中 因 篇 幅 的 缘故 而 被 删除 的 材料 ， 该 类 补充 材料 在 
本 书 中 用 类 似 www. edk5. net/ipe (该 URL 提供 与 第 4 章 “ 进 程 间 通信 ”相关 的 补充 材料 ) 
的 链接 表示 。 第 4 版 的 两 个 完整 的 章 在 新 版 中 不 再 出 现 ， 它 们 可 以 在 下 面 的 URL 处 找到 ， 

CORBA 实例 研究 : www. cdk5. net/corba, 

分 布 式 共享 内 存 : www. cdk5. net/dsm, 
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| 第 1 章 


Distributed Systems; Concepts and Design, Fifth Edition 


分 布 式 系统 的 特征 


分 布 式 系统 是 其 组 件 分 布 在 连 网 的 计算 机 上 ， 组 件 之 间 通 过 传递 消息 进行 通信 和 动作 协调 的 系统 。 
该 定义 引出 了 分 布 式 系统 的 下 列 重 要 特征 : 组 件 的 并 发 性 、 缺 乏 全 局 时 钟 、 组 件 故 障 的 独立 性 。 

我 们 看 一 下 现代 分 布 式 系统 的 几 个 例子 ， 包 括 Web 搜索 、 多 人 在 线 游戏 和 金融 交易 系统 ， 也 考察 
今天 推动 分 布 式 系统 发 展 的 关键 趋势 : 现代 网 络 的 泛 在 特性 ， 移 动 和 无 处 不 在 计算 的 出 现 ， 分 布 式 多 
媒体 系统 不 断 增加 的 重要 性 ， 以 及 把 分 布 式 系统 看 成 一 种 实用 系统 的 趋势 。 接 着 本 章 强 调资 源 共 享 是 
构造 分 布 式 系统 的 主要 动机 。 资 源 可 以 被 服务 器 管理 ， 由 客户 访问 ， 或 者 它们 被 封装 成 对 象 ， 由 其 他 
客户 对 象 访问 。 

构造 分 布 式 系统 的 挑战 是 处 理 其 组 件 的 异 构 性 、 开 放 性 〈 人 允许 增加 或 替换 组 件 ) 、 安 全 性 、 可 第 
缩 性 (用 户 的 负载 或 数量 增加 时 能 正常 运行 的 能 力 )、 蕉 障 处 理 、 组 件 的 并 发 性 、 透 明 性 和 提供 服务 
质量 的 问题 。 最 后 ， 以 Web 作为 一 个 大 规模 分 布 式 系统 的 例子 进行 了 讨论 ， 并 介绍 了 它 的 主要 特征 。 


1.1 简介 


计算 机 网 络 无 处 不 在 。 互 联网 也 是 其 中 之 一 ， 因 为 它 是 由 许多 种 网 络 组 成 的 。 移 动 电话 网 、 协 作 
网 、 企 业 网 、 校 园 网 、 家 庭 网 、 车 内 网 ， 所 有 这 些 ， 既 可 单独 使 用 ， 又 可 相互 结合 ， 它 们 具有 相同 的 
本 质 特 征 ， 这 些 特征 使 得 它们 可 以 放 在 分 布 式 系统 的 主题 下 来 研究 。 本 书 旨 在 解释 影响 系统 设计 者 各 
实现 者 的 连 网 的 计算 机 的 特征 ， 给 出 已 有 的 可 帮助 完成 设计 和 实现 分 布 式 系统 任务 的 主要 概念 和 技术 。 

我 们 把 分 布 式 系统 定义 成 一 个 其 硬件 或 软件 组 件 分 布 在 连 网 的 计算 机 上 ， 组 件 之 间 通 过 传递 消息 
进行 通信 和 动作 协调 的 系统 。 这 个 简单 的 定义 覆盖 了 所 有 可 有 效 部 署 连 网 计算 机 的 系统 。 

由 一 个 网 络 连接 的 计算 机 可 能 在 空间 上 的 距离 不 等 。 它 们 可 能 分 布 在 地 球 上 不 同 的 洲 ， 也 可 能 在 
同一 栋 楼 或 同一 个 房间 里 。 我 们 定义 的 分 布 式 系统 有 如 下 显著 特征 : 

HA: 在 一 个 计算 机 网 络 中 ， 执 行 并 发 程序 是 常见 的 行为 。 用 户 可 以 在 各 自 的 计算 机 上 工作 ,在 
必要 时 共享 诸如 Web 页 面 或 文件 之 类 的 资源 。 系 统 处 理 共享 资源 的 能 力 会 随 着 网 络 资源 (例如 ,计算 
机 ) 的 增加 而 提高 。 在 本 书 的 许多 地 方 将 描述 有 效 部 署 这 种 额外 能 力 的 方法 。 对 共享 资源 的 并 发 执行 
程序 的 协调 也 是 一 个 重要 和 重复 提 及 的 主题 。 

缺乏 全 局 时 钟 : 在 程序 需要 协作 时 ， 它 们 通过 交换 消息 来 协调 它们 的 动作 。 密 切 的 协作 通常 取决 
于 对 程序 动作 发 生 的 时 间 的 共识 。 但 是 ,事实 证 明 ， 网 络 上 的 计算 机 与 时 钟 同步 所 达到 的 准确 性 是 有 
限 的 ， 即 没有 一 个 正确 时 间 的 全 局 概念 。 这 是 通信 仅仅 是 通过 网 络 发 送 消 息 这 个 事实 带 来 的 直接 结果 。 
定时 间 题 和 它们 的 解决 方案 将 在 第 14 章 描 述 。 

故障 独立 性 : 所 有 的 计算 机 系统 都 可 能 出 故障 ， 一 般 由 系统 设计 者 负责 为 可 能 的 故障 设计 结果 。 
分 布 式 系统 可 能 以 新 的 方式 出 现 故障 。 网 络 故 障 导 致 网 上 互 连 的 计算 机 的 隔离 ， 但 这 并 不 意味 着 它们 
停止 运行 ， 事 实 上 ， 计 算 机 上 的 程序 不 能 够 检测 到 网 络 是 出 现 故 障 还 是 网 络 运行 得 比 通常 慢 。 类 似 的 ， 
计算 机 的 故障 或 系统 中 程序 的 异常 终止 〈 贿 省 ) ， 并 不 能 马上 使 与 它 通信 的 其 他 组 件 了 解 。 系 统 的 每 
个 组 件 会 单独 地 出 现 故障 ， 而 其 他 组 件 还 在 运行 。 分 布 式 系统 的 这 个 特征 所 带 来 的 后 果 将 是 贯穿 本 书 
的 一 个 反复 提 及 的 主题 。 

构造 和 使 用 分 布 式 系统 的 主要 动力 来 源 于 对 共享 资源 的 期 望 。“ 资 源 ” 一 词 是 相当 抽象 的 ， 但 它 
很 好 地 描述 了 能 在 连 网 的 计算 机 系统 中 共享 的 事物 的 范围 。 它 涉及 的 范围 从 硬件 组 件 “ 如 硬盘 、 打 印 
BL) 到 软件 定义 的 实体 〈 如 文件 、 数 据 库 和 所 有 的 数据 对 象 ) 。 它 包括 来 自 数字 摄像 机 的 视频 流 和 移 
动 电话 呼叫 所 表示 的 音频 连接 。 

本 章 主要 论述 分 布 式 系 统 的 本 质 ， 以 及 成 功 部 署 分 布 式 系统 必须 要 面临 的 挑战 ，1.2 节 展 示 了 分 
布 式 系统 的 一 些 重要 的 例子 ，1. 3 节 给 出 了 推动 分 布 式 系统 发 展 的 关键 趋势 ，1. 4 节 关 注资 源 共享 系统 
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的 设计 ，1.5 节 则 前 述 了 分 布 式 系统 设计 者 所 要 面 对 的 重要 挑战 ， 异 构 性 、 开 放 性 、 安 全 性 、 可 伸缩 
性 、 故 障 处 理 、 并 发 性 、 透 明 性 和 服务 质量 。1. 6 节 给 出 了 一 个 众所周知 的 分 布 式 系统 一 万 维 网 的 
详细 的 实例 研究 ,说 明了 它 是 如 何 支 持 资源 共享 的 。 


1.2 分 布 式 系统 的 例子 


本 节 给 出 能 激发 读者 学 习 积极 性 的 当代 分 布 式 系统 的 例子 ， 用 于 说 明 分 布 式 系统 所 扮演 的 无 处 不 
在 的 角色 和 相关 应 用 的 多 样 性 。 | 

如 1.1 节 所 提 及 的 那样 ， 网 络 无 处 不 在 ， 成 为 我 们 现在 认为 理所当然 的 日 常服 务 (互联 网 和 相关 
的 万 维 网 、Web 搜索 、 在 线 游戏 、 电 子 邮件 、 社 会 网 络 、 电 子 商 务 ， 等 等 ) 的 基础 。 为 了 进一步 说 明 
这 一 点 ， 可 参考 图 1-1， 它 描述 了 一 系列 所 选 的 关键 商务 或 社会 应 用 部 门 ， 强 调 了 相关 的 分 布 式 系统 技 
术 已 公认 或 新 出 现 的 应 用 。 








金融 和 商业 电子 商务 的 发 展 可 以 用 Amazon 和 eBay 等 公司 作为 例证 ， 底 层 的 支付 技术 如 PayPal 也 在 不 断 
发 展 ; 出 现 了 相关 的 在 线 银行 和 交易 ， 以 及 用 于 金融 市 场 的 复杂 信息 分 发 系统 
信息 社会 万 维 网 发 展 成 信息 和 知识 的 仓库 ; 开发 出 用 于 搜索 这 个 巨大 仓库 的 Web 搜索 引擎 ， 如 Google 


和 Yahoo 等 ， 出 现 了 数字 图 书馆 和 对 遗留 信息 源 (诸如 书 ) 的 大 规模 数字 化 (Am, Google 
Books) ; 通过 如 YouTube, Wikipedia 和 Flicker 等 网 站 ,使 用 户 生成 的 内 容 的 重要 性 不 断 提升 ; 
出 现 了 诸如 Facebook 和 MySpace 这 样 的 社交 网 络 

创意 产业 和 娱乐 在 线 游戏 成 为 一 种 新 的 高 度 交 互 的 娱乐 方式 ; 利用 网 络 化 的 媒体 中 心 和 更 广泛 的 互联 网 ， 
获得 可 下 载 的 或 流 化 的 内 容 ， 从 而 在 家 里 获得 音乐 和 电影 ; 用 户 生成 的 内 容 ， 例 如 通过 诸如 
YouTube 之 类 的 服务 ， 成 为 一 种 新 型 的 创新 ; 新 兴 (包括 网 络 化 ) 技术 引发 了 新 的 艺术 和 娱 
乐 方式 

医疗 保健 健康 信息 化 成 为 一 个 学 科 ， 强 调 在 线 电 子 病历 记录 和 与 私密 性 相关 的 问题 ; 远程 医疗 在 支持 
远程 诊断 或 更 先进 的 服务 如 远程 手术 (包括 医疗 团队 之 间 的 协同 工作 ) 等 方面 越 来 越 重 要 ; 应 
用 网 络 化 和 媒人 入 式 系 统 技术 来 辅助 生活 ， 例 如 ， 在 家 里 监测 老年 人 的 行动 情况 


教育 出 现 电 子 教育 ， 例 如， 通过 基于 Web 的 工具 〈 诸 如 虚拟 学 习 环 境 ) 进行 学 习 ;， 对 远程 教育 
的 相关 支持 ; 对 协作 或 基于 社区 学 习 的 支持 
交通 和 物流 在 路 线 寻找 系统 和 更 通用 的 交通 管理 系统 中 ， 使 用 定位 技术 如 CPS; 现代 车 辆 自身 已 成 为 一 


个 复杂 分 布 式 系统 的 例子 《这 点 也 适用 于 其 他 交通 工具 ， 如 飞机 ); 开发 了 基于 Web 的 地 图 服 
务 ， 如 MapQuest、Google Maps 和 Google Earth 


科学 出 现 了 网 格 ， 它 作为 Science 的 基础 技术 ， 以 使 用 复杂 计算 机 网 络 对 (经常 是 超大 数量 的 ) 
科学 数据 的 存储 、 分 析 和 处 理 提 供 支 持 ; 对 网 格 的 使 用 使 得 世界 范围 内 科学 家 小 组 之 间 的 协作 
成 为 可 能 

环境 管理 使 用 (网 络 化 ) 传感器 技术 ， 监 控 和 管理 自然 环境 ， 例 如 ， 对 自然 灾害 (如 地 震 、 洪 水 、 海 


Rh) 提供 早期 预警 和 协调 应 急 响 应 ; 整理 和 分 析 全 局 环境 参数 ， 从 而 更 好 地 理解 复杂 自然 现象 
(如 气候 变化 ) 








图 1-1 所 选 的 应 用 领域 和 相关 的 网 络 化 应 用 


正如 所 看 到 的 ， 分 布 式 系统 包含 近 些 年 许多 最 重要 的 技术 发 展 ， 因 此 理解 底层 技术 绝对 是 现代 计 
算 知 识 的 核心 。 图 1-1 也 展示 了 当前 广泛 的 应 用 ， 从 相对 本 地 化 的 系统 (例如 汽车 或 飞机 中 的 系统 ) 
到 全 球 范围 的 涉及 上 百 万 结 点 的 系统 ， 从 以 数据 为 中 心 的 服务 到 处 理 器 密集 型 任务 ， 从 由 非常 小 相对 
原始 的 传感器 构建 的 系统 到 那些 包含 强大 计算 元 素 的 系统 ， 从 艇 人 式 系统 到 那些 支持 复杂 交互 式 用 户 
体验 的 系统 ， 等 等 。 

下 面 给 出 分 布 式 系统 更 特定 的 例子 ， 进 一 步 说 明 今天 分 布 式 系 统 的 多 样 性 和 复杂 性 。 


1.2.1 Web 搜索 


在 过 去 的 10 年 ，Web 搜索 已 经 成 为 一 大 迅速 发 展 的 行业 ， 最 近 的 数字 表明 每 个 月 的 全 球 搜索 量 已 
经 超过 100 亿 。Web 搜索 引 葡 的 任务 是 为 万 维 网 的 所 有 内 容 建立 索引 ， 其 中 含有 各 种 信息 类 型 ， 包 括 
Web 页 面 、 多 媒体 资源 和 (扫描 后 的 ) 书 。 这 是 一 个 非常 复杂 的 任务 ， 因 为 当前 的 估计 是 Web 由 超过 
630 亿 个 页 面 组 成 ， 包 含 1 万 亿 个 Web 地 址 。 考 虑 到 大 多 数 搜索 引擎 是 分 析 整 个 Web 内 容 ， 并 在 这 个 
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巨大 的 数据 库 上 完成 复杂 的 处 理 ， 那 么 这 个 任务 自身 就 是 对 分 布 式 系统 设计 的 一 个 巨大 挑战 。 

Google, Web 搜索 技术 上 的 市 场 领导 者 ， 在 支持 用 于 搜索 (与 其 他 Google 应 用 和 服务 ， 如 Google 
Earth) 的 复杂 的 分 布 式 系统 基础 设施 的 设计 上 已 做 出 了 巨大 的 努力 。 它 代表 了 计算 历史 上 最 大 和 最 复 
杂 的 分 布 式 系统 设施 之 一 。 该 基础 设施 最 突出 的 亮点 包括 ; 

。 一 个 底层 物理 设施 ， 它 由 超大 数目 的 位 于 全 世界 多 个 数据 中 心 的 联网 计算 机 组 成 ; 

© 一 个 分 布 式 文件 系统 ， 支 持 超大 文件 ， 并 根据 搜索 和 其 他 Googe 应 用 的 使 用 方式 (特别 是 在 

` ”文件 中 以 快速 而 持久 的 速度 读 取 )〉 进行 了 深度 优化 ; 

。 一 个 相关 的 结构 化 分 布 式 存储 系统 ， 它 提供 对 超大 数据 集 的 快速 访问 ; 

。 一 个 锁 服 务 ， 它 提供 诸如 分 布 式 加 锁 和 协定 等 分 布 式 系统 功能 ; 

。 一 个 编程 模式 ， 它 支持 对 底层 物理 基础 设施 上 的 超大 并 行 和 分 布 式 计算 的 管理 。 

关于 Google 分 布 式 系 统 服 务 和 底层 通信 支持 的 进一步 细节 可 以 参见 第 21 章 ， 该 章 研 究 了 在 线 运行 
的 现代 分 布 式 系统 。 


1. 2.2” 大 型 多 人 在 线 游 戏 


大 型 多 人 在 线 游戏 (Massively Multiplayer Online Game, MMOG) 提供 了 一 种 身 临 其 境 的 体验 ， 超 
大 数 利 的 用 户 通 过 互联 网 在 一 个 持久 的 虚拟 世界 中 交互 。 此 类 游戏 的 主要 例子 包括 Sony 的 EverQuest N 
和 芬兰 CCP Games 公司 的 EVE Online。 这 种 游戏 的 复杂 性 迅速 增加 ， 现 在 包括 复杂 的 游戏 舞台 (例如 ， 
EVE Online 由 一 个 超过 5000 个 星系 的 宇宙 组 成 ) 以 及 多 种 社会 和 经 济 系统 。 玩 家 的 数目 也 在 上 升 ， 而 
系统 能 支持 超过 50 000 个 并 发 在 线 用 户 〈 玩 家 的 总 数目 可 能 是 这 个 数字 的 10 倍 ) 。 

MMOG 工程 体现 了 分 布 式 系统 技术 面临 的 巨大 挑战 ， 尤 其 是 它 对 快速 响应 时 间 的 需求 ， 唯 有 如 此 ， 
才能 维持 较 好 的 用 户 体 验 。 其 他 挑战 包括 事件 实时 传播 给 多 个 玩家 和 维护 对 共享 世界 的 一 个 一 致 的 视 
图 。 因 此 ， 这 是 一 个 很 好 的 例子 ， 能 说 明 现 代 分 布 式 系统 设计 者 要 面 对 的 挑战 。 

针对 大 型 多 人 在 线 游戏 ， 提 出 了 许多 解决 方案 : 

。 可 能 有 点 出 人 意料 ， 最 大 的 在 线 游 戏 EVE Online， 采 用 了 客户 -服务 器 体系 结构 ， 在 一 个 集中 
式 服务 器 上 维护 了 游戏 世界 状态 的 单个 拷贝 ， 供 运行 在 玩家 终端 或 其 他 设备 上 的 客户 程序 访 
问 。 为 了 支持 大 量 客户 ， 服 务 器 自身 是 一 个 复杂 的 实体 ， 拥 有 由 上 百 个 计算 机 结 点 组 成 的 集群 
结构 (该 客户 -服务 器 方法 在 1.4 节 详 细 讨 论 ， 集 群 方法 将 在 1.3.4 节 讨 论 ) 。 从 虚拟 世界 的 
管理 看 ， 集 中 式 体系 结构 有 极 大 的 益处 ， 单 个 拷贝 也 简化 了 一 致 性 问题 。 接 着 ， 目 标 是 通过 优 
化 网 络 协议 和 快速 响应 到 达 事件 来 确保 快速 的 响应 。 为 了 支持 这 点 ， 对 负载 进行 了 分 区 ， 把 单 
个 “星系 ”分 配给 集群 中 指定 的 计算 机 ， 这 样 ， 高 负载 星系 会 拥有 自己 的 专用 计算 机 而 其 他 
星系 则 共享 一 台 计 算 机 。 通 过 跟踪 玩家 在 星系 之 间 的 移动 ， 到 达 的 事件 被 导向 集群 中 正确 的 计 
算 机 上 。 

其 他 MMOG 采用 更 多 的 分 布 式 体系 结构 ， 字 宙 被 划分 到 大 量 (可 能 是 超 多 ) 服务 器 上 ， 这 些 

服务 器 可 能 地 理 上 分 散 部 署 。 接 着 ， 用 户 基于 当前 的 使 用 模式 和 到 服务 器 的 网 络 延 迟 〔〈 例 如 基 

于 地 理 最 近 ) 被 动态 地 分 配 到 一 个 特定 服务 器 。 这 种 体系 结构 风格 被 EverQuest 采用 ， 它 通过 

增加 新 的 服务 器 ， 可 自然 地 扩展 。 

。 大 多 数 商 业 系统 采用 上 述 两 个 模型 中 的 一 个 ， 但 研究 者 现在 也 在 寻找 更 极端 的 体系 结构 ， 即 不 
基于 客户 - 服务 器 原理 而 是 基于 对 等 技术 采用 完全 分 散 的 方法 。 采 用 对 等 技术 ， 意 味 着 每 个 参 
与 者 贡献 (存储 和 处 理 ) 资源 来 容纳 游戏 。 对 对 等 解决 方案 的 进一步 研究 将 推迟 到 第 2 章 和 第 
10 章 。 


1.2.3 金融 交易 

最 后 一 个 例子 ， 我 们 看 一 下 金融 交易 市 场 的 分 布 式 系统 支持 。 金 融 行业 以 其 需求 一 直 处 在 分 布 式 
系统 技术 的 最 前 沿 ， 特 别 是 在 实时 访问 大 范围 的 信息 源 方面 〈 例 如 ， 当 前 的 股票 价格 和 趋势 ， 经 济 和 
政治 发 展 ) 。 金 融 行业 采用 自动 监控 和 交易 应 用 。 
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注意 ， 此 类 系统 的 重点 是 对 感 兴趣 数据 项 的 通信 和 处 理 。 感 兴趣 数据 项 在 分 布 式 系统 中 称 为 事件 ， 
在 金融 行业 中 的 需求 是 可 靠 和 及 时 地 传递 事件 给 可 能 是 大 量 对 此 信息 有 兴趣 的 客户 。 此 类 事件 的 例子 
包括 股价 的 下 跌 ， 最 新 失业 数据 的 发 布 ， 等 等 。 这 要 求 底层 的 体系 结构 具有 与 前 述 风格 〈 例 如 客户 - 
服务 器 ) 完全 不 同 的 风格 ， 这 样 的 系统 通常 采用 分 布 式 基 于 事件 的 系统 。 我 们 下 面 给 出 此 类 系统 的 一 
个 典型 应 用 ， 第 6 章 再 对 这 个 重要 的 话题 进行 深入 讨论 。 

图 1-2 举例 说 明了 一 个 典型 的 金融 交易 系统 。 它 显示 了 一 系列 事件 进入 一 个 指定 的 金融 机 构 。 这 
样 的 事件 输入 具有 下 列 特征 。 首 先 ， 事件 源 通 常 具 有 多 种 格式 ,例如 路 透 社 的 市 场 数据 事件 和 FIX 事 
fe (符合 金融 信息 交换 协议 特定 格式 的 事件 ) ， 事 件 源 还 来 自 不 同 的 事件 技术 ， 这 说 明了 在 大 多 数 分 
布 式 系 统 中 会 遇 到 的 异 构 性 问题 (参见 1.5. 1 节 )。 图 中 使 用 了 适配器 ， 它 把 异 构 格式 转换 成 一 个 公共 
的 内 部 格式 。 其 次 ， 交 易 系 统 必 须 处 理 各 种 各 样 的 事件 流 ， 这 些 事件 流 高 速 到 达 ， 经 常 需要 实时 处 理 
来 检测 表示 交易 机 会 的 模式 。 这 在 过 去 曾经 是 手工 处 理 的 ， 但 在 竞争 压力 下 变 成 自动 处 理 ， 这 就 是 所 
谓 的 复杂 事件 处 理 (Complex Event Processing，CEP) ， 它 提供 了 一 种 方法 来 将 一 起 发 生 的 事件 组 成 软 
辑 的 、 时 序 的 或 空间 的 模式 。 





FIX 事 件 路 透 社 事件 


图 1-2 金融 交易 系统 例子 


这 种 方法 主要 用 于 开发 定制 的 算法 的 交易 策略 ， 包 括 股票 的 买 人 和 卖 出 ,特别 是 可 以 寻找 表示 交 


易 机 会 的 模式 ， 然 后 通过 下 单 和 订单 管理 系统 自动 地 回复 。 作 为 一 个 例子 ， 考 虑 下 面 的 脚本 : 
WHEN 
MSFT price moves outside 2% of MSFT Moving Average 
FOLLOWED-BY ( 
MyBasket moves up by 0.5% 
AND 
HPQ'’s price moves up by 5% 
OR 
MSFT’s price moves down by 2% 
J 


J 
ALL WITHIN 
any 2 minute time period 
THEN 
BUY MSFT 
SELL HPQ 
这 个 脚本 基于 Apama [ www. progress. com] 提供 的 功能 ，Apama 是 金融 领域 的 一 个 商业 产品 ， 最 
初 是 根据 剑桥 大 学 的 研究 工作 开发 的 。 脚 本 根据 微软 、HP 的 股价 和 一 组 其 他 股价 检测 一 个 复杂 的 时 序 
序列 ， 决 定 买 人 或 卖 出 特定 的 股票 。 
在 金融 系统 的 其 他 领域 ， 包 括 通过 监控 交易 活动 来 管理 风险 〈 特 别 是 跟踪 曝光 ) ， 这 种 类 型 的 技 
术 的 使 用 也 在 增加 ， 用 于 确保 遵从 规则 和 监控 有 诈骗 交易 倾向 的 活动 模式 。 在 这 种 系统 中 ， 事 件 在 处 
理 之 前 通常 会 被 截获 ， 然 后 通过 一 个 合 规 的 防火 墙 (参见 下 面 1.3.1 节 关 于 防火 墙 的 讨论 ) 。 


1.3 分 布 式 系统 的 趋势 
分 布 式 系统 正在 经 历 巨大 的 变化 ， 这 可 追溯 到 一 系列 有 影响 力 的 趋势 : 
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出 现 了 泛 在 联网 技术 ; 

出 现 了 无 处 不 在 计算 ， 它 伴随 着 分 布 式 系统 中 支持 用 户 移动 性 的 意愿 
对 多 媒体 设备 的 需求 增加 ; 

把 分 布 式 系统 作为 一 个 设施 。 


1.3.1 泛 在 联网 和 现代 互联 网 


现代 互联 网 是 一 个 巨大 的 由 多 种 类 型 计算 机 网 络 互 连 的 集合 ， 网 络 的 类 型 一 直 在 增加 ， 现 在 包括 
多 种 多 样 的 无 线 通信 技术 ,如 WiFi、WiMAX、 蓝 牙 〈 参 见 第 3 章 ) 和 第 三 代 移动 电话 网 络 。 最 终结 果 
是 联网 已 成 为 一 个 泛 在 的 资源 ， 设 备 可 以 在 任何 时 间 、 任 何 地 方 被 连接 (如 果 愿 意 ) 。 

图 1-3 举例 说 明了 互联 网 的 部 分 典型 组 成 。 互 联网 上 的 计算 机 程序 通过 传递 消息 进行 交互 ， 采 用 
了 一 种 公共 的 通信 手段 。 互 联网 通信 机 制 〈 互 联网 协议 ) 的 设计 和 构造 是 一 项 重大 的 技术 成 果 ， 它 使 
得 一 个 在 某 处 运行 的 程序 能 给 另 一 个 地 方 的 程序 发 送 消息 。 
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桌面 计算 机 : S 
服务 器 : 
网 络 连接 : 


图 1-3 互联 网 的 典型 部 分 


互联 网 也 是 一 个 超大 的 分 布 式 系统 。 它 使 得 世界 各 地 的 用 户 都 能 利用 诸如 万 维 网 、 电 子 邮 件 和 文 
件 传 送 等 服务 。( 有 时 ，Web 被 不 正确 地 等 同 于 互联 网 。) 服务 集 是 开放 的 ， 它 能 够 通过 服务 器 计算 机 
和 新 的 服务 的 增加 而 被 扩展 。 图 1-3 还 展示 了 许多 企业 内 部 网 一 一 由 公司 和 其 他 组 织 操作 的 子 网 ， 通 
常 受 防 火 墙 的 保护 。 防 火 墙 的 作用 是 保护 企业 内 部 网 ， 防 止 未 授权 的 消息 进出 网 络 。 防 火 墙 是 通过 过 
滤 到 达 消息 和 外 发 消息 来 实现 的 。 可 以 在 源 或 目的 地 进行 过 滤 ， 或 者 防火 墙 可 以 仅 允 许 与 电子 邮件 和 
Web 访问 相关 的 消息 进出 它 保护 的 企业 内 部 网 。 互 联网 服务 提供 商 (Internet Service Provider, ISP) 是 
给 个 体 用 户 和 小 型 组 织 提 供 宽带 链接 和 其 他 类 型 连接 的 公司 ， 使 他 们 能 获得 互联 网 上 任何 地 方 的 服务 ; 
同时 提供 诸如 电子 邮件 和 Web 托管 等 本 地 服务 。 企 业内 部 网 通过 主干 网 实现 互相 链接 。 主 干 网 是 具有 
高 传送 能 力 的 网 络 链接 ， 通 常 采用 卫星 连接 、 光 绕 和 其 他 高 带宽 线路 。 

一 些 组 织 并 不 希望 将 他 们 的 内 部 网 络 连 接 到 互联 网 。 例如， 警察 局 与 其 他 安全 和 法 律 执 行 机 构 
可 能 至 少 有 一 些 内 部 网 与 外 部 世界 隔离 (没有 与 互联 网 的 任何 物理 连接 一 一 可 能 是 最 有 效 的 防火 
墙 ) 。 当 内 部 用 户 和 外 部 用 户 之 间 需 要 资源 共享 时 ， 对 服务 的 合法 访问 受到 防火 墙 的 阻碍 ， 也 会 在 分 
布 式 系统 中 出 现 问题 。 因 此 ， 必 须 经 常用 更 细 粒 度 的 机 制 和 策略 〈 见 第 11 章 的 讨论 ) 作为 防火 墙 的 
补充 。 

互联 网 和 其 支持 的 服务 的 实现 ， 使 得 必须 开发 实用 解决 方案 来 解决 分 布 式 系统 中 的 许多 问题 〈 包 
括 在 1.5 节 中 定义 的 大 多 数 问题 ) 。 本 书 将 着 重 阐述 这 些 解决 方案 ， 并 在 适当 的 时 候 说 明 它 们 的 适用 范 
围 和 局 限 性 。 


1.3.2 移动 和 无 处 不 在 计算 


设备 小 型 化 和 无 线 网 络 方面 的 技术 进步 已 经 逐步 使 得 小 型 和 便携 式 计算 设备 集成 到 分 布 式 系统 中 。 
这 些 设备 包括 : 
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。 笔记 本 电脑 。 

。 手持 设备 ， 包 括 移动 电话 、 智 能 电话 、GPS 设备 、 传 呼 机 、 个 人 数字 助理 (PDA) 、 摄 像 机 和 

数码 相机 。 

。 可 穿戴 设备 ， 如 具有 类 似 PDA 功能 的 智能 手表 。 

© 从 人 在 家 电 〈 如 洗衣 机 、 高 保 真 音响 系统 、 汽 车 和 冰箱 ) 中 的 设备 。 

这 些 设 备 大 多 数 具 有 可 携带 性 ， 再 加 上 它们 可 以 在 不 同 地 方 方 便 地 连接 到 网 络 的 能 力 ， 使 得 移动 
计算 成 为 可 能 。 移 动 计算 是 指 用 户 在 移动 或 访问 某 个 非常 规 环境 时 执行 计算 任务 的 性 能 。 在 移动 计算 
中 ， 远 离 其 本 地 的 企业 内 部 网 〈 指 工作 环境 或 其 住处 的 企业 内 部 网 ) 的 用 户 也 能 通过 他 们 携带 的 设备 
访问 资源 。 他 们 能 继续 访问 互联 网 ， 继 续 访 问 在 他 们 本 地 内 部 企业 网 上 的 资源 。 为 用 户 在 其 移动 时 提 
供 资源 (如 打印 机 ) 或 方便 地 利用 附近 的 销售 点 的 情形 也 在 不 断 增 加 。 后 者 也 称 为 位 置 感知 或 上 下 文 
感知 的 计算 。 移 动 性 为 分 布 式 系 统 引 人 了 一 系列 的 挑战 ， 包 括 需要 处 理 变化 的 连接 甚至 断 连 、 需 要 在 
设备 移动 时 维持 操作 ( 见 1.5.7 节 关 于 移动 透明 性 的 讨论 ) 。 

无 处 不 在 计算 是 指 对 在 用 户 的 物理 环境 (包括 家 庭 、 办 公 室 和 其 他 自然 环境 ) 中 存在 的 多 个 小 
型 、 便 宜 的 计算 设备 的 利用 。 术 语 “ 无 处 不 在 ” 意 指 小 型 计算 设备 最 终 将 在 不 会 引 人 注 意 的 日 常 物品 
中 普及 。 也 就 是 说 ， 它 们 的 计算 行为 将 透明 地 紧密 捆绑 到 这 些 日 常 物 草 的 物理 功能 上 。 

各 处 的 计算 机 只 有 在 它们 能 相互 通信 时 才 变 得 有 用 。 例 如 ， 如 果 用 户 能 通过 电话 或 一 个 “通用 远 
程控 制 ” 设 备 控制 家 里 的 洗衣 机 和 娱乐 系统 ， 那 么 用 户 会 觉得 很 方便 。 而 洗衣 机 在 完成 洗衣 后 能 通过 
一 个 智能 徽章 或 电话 通知 用 户 ， 也 会 让 人 觉得 很 方便 。 

无 处 不 在 计算 和 移动 计算 有 交叉 的 地 方 ， 因 为 从 原理 上 说 ， 移 动用 户 能 受益 于 遍布 各 处 的 计算 
机 。 但 一 般 而 言 ， 它 们 是 不 同 的 。 无 处 不 在 计算 能 让 待 在 家 里 或 医院 这 样 单一 的 环境 中 的 用 户 受 益 。 
类 似 地 ， 即 使 移动 计算 只 涉及 常见 的 、 分 立 的 计算 机 和 设备 〈 如 笔记 本 电脑 和 打印 机 ) ， 它 还 是 有 优 
势 的 。 

图 1-4 显示 了 一 个 正在 访问 一 个 组 织 的 用 户 。 该 图 显示 出 用 户 本 地 的 内 部 网 和 用 户 正 在 访问 的 内 
部 网 。 两 个 企业 内 部 网 都 连接 到 互联 网 。 





互联 网 

ee 人 

被 访问 的 企 用 户 本 地 的 
| 。 业内 部 网 FLAN i 企业 内 部 网 
| | 
| ©) /移动 上 一 过 一 GPS 卫星 信号 
| 电话 | 3G 手 机 网 络 
| 打印 机 ”一 一 


相机 笔记 本 电脑 | 被 访问 的 站 点 
图 1-4 分 布 式 系统 中 的 便携 式 设备 和 手持 设备 


用 户 可 以 使 用 三 种 无 线 连接 。 笔 记 本 电脑 可 以 连接 到 被 访问 组 织 的 无 线 LAN。 无 线 LAN 覆盖 方圆 
几 百 米 的 范围 ( 即 建筑 物 的 一 层 )。 它 通过 网 关 或 访问 点 连接 到 被 访问 组 织 的 企业 内 部 网 。 用 户 还 有 
一 部 连 到 互联 网 的 移动 电话 ， 电 话 可 以 访问 Web 和 其 他 互联 网 服务 ， 只 是 所 显示 的 内 容 受 限于 小 的 显 
示 屏 幕 ， 电 话 也 可 以 通过 内 置 的 GPS 功能 提供 位 置信 息 。 最 后 ， 用 户 携带 一 台数 码 相机 ， 它 能 通过 一 
个 个 域 无 线 网 络 〈 其 覆盖 范围 大 约 为 10m) 与 打印 机 这 样 的 设备 通信 。 

利用 适当 的 系统 基础 设施 ， 用 户 能 在 其 访问 地 用 他 们 携带 的 设备 完成 一 些 简 单 的 任务 。 当 用 户 到 
达 其 访问 的 地 方 时 ， 他 能 通过 移动 电话 从 Web 服务 器 上 取得 最 新 的 股票 价格 ， 也 能 使 用 内 置 的 GPS 和 
路 由 寻找 软件 来 获得 到 达 目 标 位 置 的 方向 。 在 与 访问 单位 开会 时 ， 通 过 把 数码 相机 的 照片 直接 发 送 到 
会 议 室 的 一 台 可 用 的 (本 地 ) 打印 机 或 投影 机 上 ， 用 户 就 能 展示 最 近 的 照片 。 这 仅仅 要 求 相 机 和 打印 
机 或 投影 机 之 间 具 有 无 线 连 接 。 原 则 上 ， 用 户 可 以 利用 无 线 LAN 或 有 线 的 以 太 网 链接 从 笔记 本 电脑 上 
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把 文件 发 送 到 同一 台 打 印 机 。 

这 个 场景 说 明了 支持 自发 互 操作 的 需求 ， 依 靠 自发 互 操作 ， 设 备 之 间 的 关联 被 例 行 地 创建 和 拆 
除 ， 定 位 和 使 用 所 访问 地 的 设备 (如 打印 机 ) 是 一 个 这 方面 的 例子 。 这 种 情况 下 的 最 大 挑战 是 让 互 
操作 快速 和 方便 〈 邑 自发 ) ， 即 使 用 户 可 能 在 一 个 他 们 以 前 从 来 没有 访问 过 的 环境 。 这 意味 着 ， 要 让 
访问 者 的 设备 在 访问 地 的 网 络 上 通信 ， 并 将 设备 与 合适 的 本 地 设备 相关 联 一 一 这 个 过 程 称 为 服务 
发 现 。 

移动 和 无 处 不 在 计算 是 一 个 热门 的 研究 领域 ， 上 面 提 到 的 多 个 方面 将 在 第 19 章 深 入 讨论 。 


1.3.3 分 布 式 多 媒体 系统 


另 一 个 重要 的 趋势 是 在 分 布 式 系统 中 支持 多 媒体 服务 的 需求 。 多 媒体 支持 可 以 定义 为 以 集成 的 方 
式 支持 多 种 媒体 类 型 的 能 力 。 人 们 可 以 期 望 分 布 式 多 媒体 系统 支持 离散 类 型 媒体 (如 图 片 或 正文 消 
息 ) 的 存储 、 传 输 和 展示 。 分 布 式 多 媒体 系统 应 该 能 对 连续 类 型 媒体 〈 如 音频 和 视频 ) 完成 相同 的 功 
能 ， 即 它 应 该 能 存储 和 定位 音频 或 视频 文件 ， 并 通过 网 络 传输 它们 〈 可 能 需要 以 实时 的 方式 ， 因 为 流 
来 自 摄像 机 ) ， 从 而 能 向 用 户 展 示 多 种 媒体 类 型 ， 以 及 在 一 组 用 户 中 共享 多 种 类 型 的 媒体 。 

连续 媒体 的 重要 特点 是 它们 包括 一 个 时 间 维 度 ， 确 实 ， 媒 体 类 型 的 完整 性 从 根本 上 依赖 于 在 媒体 
类 型 的 元 素 之 间 保 持 实时 关系 。 例 如 ， 在 视频 展示 中 ， 保 持 给 定 的 吞吐 量 是 必要 的 ， 它 以 帧 / 秒 计 ， 而 
对 实时 流 来 说 ， 是 给 定 帧 传递 的 最 大 延迟 。( 这 是 服务 质量 的 一 个 例子 ， 详 细 讨 论 见 1. 5. 8 节 。) 

分 布 式 多 媒体 计算 的 好 处 是 相当 大 的 ， 因 为 能 在 桌面 环境 提供 大 量 的 新 〈 多 媒体 ) 服务 和 应 用 ， 
包括 访问 实况 或 预先 录 下 的 电视 广播 、 访 问 提供 视频 点 播 服务 的 电影 资料 库 、 访 问 音乐 资料 库 、 提 供 
音频 和 视频 会 议 设施 、 提 供 集成 的 电话 功能 (包括 IP 电话 或 相关 的 技术 ， 例 如 IP 电话 的 一 个 对 等 方 
R Skype, Xf Skype 底层 的 分 布 式 系统 基础 设施 的 讨论 见 4. 5.2 节 ) 。 注 意 ， 该 项 技术 对 于 制造 商 重新 
思考 消费 类 设备 方面 是 革命 性 的 。 例 如 ， 什 么 是 将 来 核心 的 家 庭 娱 乐 设备 一 一 计算 机 、 电 视 或 游戏 控 
制 台 ? 

网 络 播放 (webcasting) 是 分 布 式 多 媒体 技术 的 应 用 。 网 络 播放 是 在 互联 网 上 广播 连续 媒体 〈 典 型 
的 是 音频 或 视频 ) 的 能 力 ， 现 在 常见 以 这 种 方式 广播 主要 的 体育 或 音乐 事件 ， 它 经 常 吸引 大 量 的 观看 
者 (例如 ，2005 年 的 Live 音乐 会 在 其 高 峰 同 时 吸引 了 大 约 170 000 名 用 户 )。 

分 布 式 多 媒体 应 用 (例如 网 络 播 放 ) 对 底层 的 分 布 式 基础 设施 提出 了 大 量 的 要 求 ， 包 括 : 

。 提供 对 一 系列 (可 扩展 的 ) 编码 和 加 密 格 式 的 支持 ， 例 如 MPEG 系列 标准 (包括 如 流行 的 

MP3 标准 ， 也 称 MPEG-1 音频 第 三 层 ) A HDTV; 

。 提供 一 系列 机 制 来 保障 所 需 的 服务 质量 能 得 到 满足 ; 

。 提供 相关 的 资源 管理 策略 ， 包 括 合适 的 调度 策略 ， 来 支持 所 需 的 服务 质量 ; 

。 提供 适 配 策略 来 处 理 在 开放 系统 中 不 可 避免 的 场景 ， 即 服务 质量 不 能 得 到 满足 或 维持 。 

这 些 机 制 的 进一步 讨论 可 以 在 第 20 章 找 到 。 


1.3.4 把 分 布 式 计算 作为 一 个 公共 设施 


随 着 分 布 式 系统 基础 设施 的 不 断 成 熟 ， 不 少 公司 在 推广 这 样 的 观点 : 把 分 布 式 资源 看 成 一 个 商品 

或 公共 设施 ， 把 分 布 式 资源 和 其 他 公用 设施 (例如 水 或 电 ) 进行 类 比 。 采 用 这 个 模型 ， 资 源 通过 合适 

的 服务 提供 考 提 供 ， 能 被 最 终 用 户 有 效 地 租赁 而 不 是 拥有 。 这 种 模型 可 以 应 用 到 物理 资源 和 更 多 的 好 
辑 服 务 上 。 

© 联网 的 计算 机 可 用 诸如 存储 和 处 理 这 样 的 物理 资源 ， 从 而 无 须 自 己 拥有 这 样 的 资源 。 从 一 个 

维度 看 ， 用 户 可 以 为 其 文件 存储 〈 例 如 ， 照 片 、 音 乐 或 视频 等 多 媒体 数据 的 存储 ) 需求 和 / 

或 文件 备份 需求 选择 一 个 远程 存储 设施 。 类 似 地 ， 利 用 这 个 方法 ， 用 户 能 租用 一 个 或 多 个 计 

算 结 点 ， 从 而 满足 他 们 的 基本 计算 需求 或 者 完成 分 布 式 计 算 。 从 另 一 个 维度 看 ， 用 户 现在 能 

用 像 Amazon 和 Google 之 类 的 公司 提供 的 服务 访问 复杂 的 数据 中 心 (网 络 化 的 设施 ， 为 用 户 
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或 机 构 提 供 对 拥有 大 量 数据 的 数据 仓库 的 访问 ) 或 计算 基础 设施 。 操 作 系统 虚拟 化 是 该 方法 
关键 的 使 能 技术 ， 它 意味 着 实际 上 可 以 通过 一 个 虚拟 的 而 不 是 物理 的 结 点 为 用 户 提供 服务 。 
这 从 资源 管理 角度 给 服务 提供 者 提供 了 更 大 的 灵活 性 (关于 操作 系统 虚拟 化 的 详细 讨论 见 第 
7 章 )。 
。 用 这 种 方法 ， 软 件 服务 (其 定义 见 1.4 节 ) 也 能 跨 全 球 互联 网 使 用 。 确 实 ， 许 多 公司 现在 提供 
一 整套 服务 用 于 租赁 ， 包 括 诸如 电子 邮件 和 分 布 式 日 历 之 类 的 服务 。 例 如 ，Google 将 其 旗下 的 
一 系列 业务 服务 捆绑 成 Google Apps [ www. google. com I] 。 软 件 服务 所 遵循 的 标准 ， 例 如 Web 
服务 〈 见 第 9 章 ) 提供 的 标准 ， 使 得 这 类 开发 成 为 可 能 。 
关于 计算 作为 公共 设施 ， 术 语 云 计算 (cloud computing) 被 用 来 刻画 其 前 景 。 云 被 定义 成 一 组 基 
于 互联 网 的 应 用 ， 并 且 足 以 满足 大 多 数 用 户 需 求 的 存储 和 计算 服务 的 集合 ， 这 使 得 用 户 能 大 部 分 或 
全 部 免除 本 地 数据 存储 和 应 用 软件 的 使 用 gp 应 用 服务 
( 兄 图 1-5) 。 该 术语 也 推广 “把 每 个 事物 a i 
看 成 一 个 服务 ”的 观点 ， 从 物理 或 虚拟 基 。”! ”一 > aa 
础 设施 到 软件 ， 这 样 ， 服 务 经 常 根据 使 用 
而 非 购 买 来 支付 费用 。 注意， 云 计算 减少 |B. 


— 存储 服务 
了 对 用 户 设备 的 需求 ， 允 许 非常 简单 的 课 l aer 
面 或 便携 式 设备 来 访问 可 能 很 广 范围 内 的 _ 
资源 和 服务 6 | 
通常 ， 云 实现 在 集群 计算 机 上 ,从 而 “， 计算 服务 
提供 每 个 服务 所 要 求 的 必要 的 伸缩 性 和 性 T 


能 。 集 群 计 算 机 (cluster computer) 是 互 连 
的 计算 机 集合 ， 它 们 紧密 协作 提供 单一 的 、 
集成 的 高 性 能 计算 能 力 。 在 诸如 Berkeley Biles ele 
的 NOW (Network of Workstations) m H [Anderson et al. 1995, now. cs. berkeley. edu] 和 NASA 的 Be- 
owulf 项 目 [www. beowulf. org) 的 基础 上 ， 现 在 的 趋势 是 计算 机 和 互连网 络 都 朝 着 利用 商用 硬件 的 方 
向 发 展 。 大 多 数 集群 由 商用 PC 组 成 ， 这 些 PC 运行 操作 系统 (如 Linux) 的 标准 版 本 (有 时 是 缩减 
版 ) ， 并 通过 局 域 网 互联 。 诸 如 HP. Sun 和 IBM 等 公司 提供 了 刀片 解决 方案 。 刀 片 服务 器 (blade 
server) 是 最 小 的 包含 处 理 和 (EF) 存储 能 力 的 计算 元 素 。 刀 片 系统 由 包含 在 一 个 刀片 机 架 中 的 大 
量 刀 片 服务 器 组 成 。 其 他 元 素 例如 电源 、 冷 却 、 持 久 存储 〈 磁 盘 ) 、 联 网 和 显示 ， 或 是 由 机 架 提供 或 
是 通过 虚拟 化 解决 方案 提供 〈 相 关 讨 论 见 第 7 章 ) 。 通 过 这 个 解决 方案 ， 单 个 刀片 服务 器 比 商用 PC 
更 小 ， 也 更 便宜 。 

集群 服务 器 的 总 目的 是 提供 一 系列 的 云 服 务 ， 包 括 高 性 能 计算 能 力 、 大 容量 存储 〈 例 如 通过 数据 
中 心 ) 、 丰 富 的 应 用 服务 (如 Web 搜索 一 一 Google 依赖 大 容量 集群 计算 机 体系 结构 来 实现 其 搜索 引擎 
和 其 他 服务 ， 相 关 讨 论 见 第 21 章 ) 。 

网 格 计算 (相关 讨论 见 第 9 章 9.7.2 节 ) 也 能 被 看 成 是 一 种 云 计 算 。 大 量 的 术语 是 同 义 的 ， 侦 尔 
定义 得 不 清楚 ， 但 网 格 计算 通常 被 看 成 是 云 计 算 这 种 更 通用 模式 的 先驱 ， 它 只 是 偏重 于 支持 科学 计算 。 


1.4 关注 资源 共享 


用 户 已 经 习惯 了 资源 共享 带 来 的 好 处 ， 以 致 很 容易 忽视 它们 的 重要 性 。 大 家 通常 共享 硬件 资源 
(如 打印 机 )、 数 据 资源 (如 文件 ) 和 具有 特定 功能 的 资源 (如 搜索 引擎 ) 。 

从 硬件 资源 的 观点 看 ， 大 家 共享 设备 (如 打印 机 和 磁盘 ) 可 以 减少 花费 ， 但 对 用 户 具 有 更 大 意义 
的 是 共享 与 用 户 应 用 、 日 常 工作 和 社会 活动 有 关 的 更 高 层 的 资源 。 例 如 ， 用 户 关心 以 共享 数据 库 或 
Web 页 面 集 方式 出 现 的 共享 数据 ， 而 不 是 实现 上 述 服务 的 硬盘 和 处 理 器 。 类 似 地 ， 用 户 关心 诸如 搜索 
引擎 或 货币 换算 器 之 类 的 共享 资源 ， 而 不 关心 提供 这 些 服务 的 服务 器 。 

实际 上 ， 资 源 共 享 的 模式 随 其 工作 范围 和 与 用 户 工作 的 密切 程度 的 不 同 而 不 同 。 一 种 极端 是 ， 
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Web 上 的 搜索 引擎 给 全 世界 的 用 户 提供 工具 ， 而 用 户 之 间 并 不 需要 直接 接触 ; 另 一 种 极端 是 ， 在 计算 
机 支持 协同 工作 (Computer Supported Cooperative Working, CSCW) 中 ， 若干 直接 进行 合作 的 用 户 在 一 
个 小 型 封闭 的 小 组 中 共享 诸如 文档 之 类 的 资源 。 用 户 在 地 理 上 的 分 布 以 及 用 户 之 间 进 行 共享 的 模式 决 
定 了 系统 必须 提供 协调 用 户 动作 的 机 制 。 

我 们 使 用 术语 服务 表示 计算 机 系统 中 管理 相关 资源 并 提供 功能 给 用 户 和 应 用 的 一 个 单独 的 部 分 。 
例如 ,我们 通过 文件 服务 访问 共享 文件 ; 通过 打印 服务 发 送 文 件 到 打印 机 ; 通过 电子 支付 服务 购买 商 
品 。 仅 仅 通 过 服务 提供 的 操作 可 以 实现 对 服务 的 访问 。 例 如 ， 一 个 文件 服务 提供 了 对 文件 的 read, 
write 和 delete 操作 。 

服务 将 资源 访问 限制 为 一 组 定义 良好 的 操作 ， 这 在 某 种 程度 上 属于 标准 的 软件 工程 实践 ， 同 时 它 
也 反映 出 分 布 式 系 统 的 物理 组 织 。 分 布 式 系统 的 资源 是 物理 地 封装 在 计算 机 内 的 ， 其 他 计算 机 内 能 通 
过 通信 才能 访问 。 为 了 实现 有 效 的 共享 ， 每 个 资源 必须 由 一 个 程序 管理 ， 这 个 程序 提供 通信 接口 使 得 
对 资源 进行 可 靠 和 一 致 的 访问 和 更 新 。 

大 多 数 读者 很 熟悉 术语 服务 器 ， 它 指 的 是 在 连 网 的 计算 机 上 的 一 个 运行 程序 (一 个 进程 ) ， 这 个 
程序 接收 来 自 其 他 计算 机 上 正在 运行 的 程序 的 请 求 ， 执 行 一 个 服务 并 适当 地 做 出 响应 。 发 出 请 求 的 进 
程 称 为 客户 ， 整 个 方案 称 为 客户 -服务 器 计算 。 在 这 个 方案 中 ,请 求 以 消息 的 形式 从 客户 发 送 到 服务 
器 ， 应 答 以 消息 的 形式 从 服务 器 发 送 到 客户 。 当 客户 发 送 一 个 要 执行 的 操作 请 求 时 ， 就 称 客户 调用 那 
个 服务 器 上 的 操作 。 客 户 和 服务 器 之 间 的 完整 交互 ， 即 从 客户 发 送 一 个 请 求 到 它 接 收 到 服务 器 的 应 答 ， 
称 为 一 个 远程 调用 。 

同一 个 进程 可 能 既是 客户 又 是 服务 器 ， 因 为 服务 器 有 时 调用 其 他 服务 器 上 的 操作 。 术 语 “ 客 户 ” 
和 “服务 器 ”仅仅 是 针对 在 一 个 请 求 中 扮演 的 角色 而 言 。 客 户 是 主动 的 〈 发 起 请 求 ) ， 服 务 器 是 被 动 
的 《〈 仅 在 它们 收 到 请 求 时 唤醒 ) ; 服务 器 是 连续 运行 的 ， 而 客户 所 持续 的 时 间 只 是 客户 所 属 的 那 部 分 
应 用 程序 持续 的 时 间 。 

注意 ， 软 认 情 况 下 ， 术 语 “ 客 户 ” 和 “服务 器 ” 指 的 是 进程 而 不 是 运行 客户 或 服务 器 的 计算 机 ， 
虽然 在 日 常用 法 中 这 些 术语 也 指 计算 机 。 另 一 个 不 同 〈 我 们 将 在 第 S 章 讨论 ) 是 在 用 面向 对 象 语言 
现 的 分 布 式 系 统 中 ， 资 源 被 封装 成 对 象 ， 并 由 客户 对 象 访问 ， 这 时 ， 称 一 个 客户 对 象 调用 了 一 个 服务 
器 对 象 上 的 方法 。 

许多 (但 不 是 所 有 的 ) 分 布 式 系统 可 以 完全 用 客户 和 服务 器 交互 的 形式 来 构造 ， 万 维 网 、 电 子 邮 
件 和 连 网 的 打印 机 都 符合 这 种 模式 。 第 2 章 将 讨论 除 客户 - 服务 器 系统 之 外 的 其 他 系统 类 型 。 

一 个 正在 执行 的 Web 浏览 器 是 一 个 客户 的 例子 。Web 浏览 器 与 Web 服务 器 通信 ， 从 服务 器 上 请 求 
Web 页 面 。 我 们 在 1. 6 节 详 细 讨 论 Web 和 其 相关 的 客户 - 服务 器 体系 结构 。 


1.5 挑战 


1.2 节 的 例子 试图 说 明 分 布 式 系统 的 范围 ， 并 提出 在 设计 中 出 现 的 问题 。 在 许多 系统 中 ， 过 到 了 
重大 的 挑战 并 且 已 经 得 到 解决 。 随 着 分 布 式 系统 的 应 用 范围 和 规模 的 扩展 ， 可 能 会 遇 到 相同 的 和 其 他 
的 挑战 。 本 节 我 们 描述 主要 的 挑战 。 


1.5.1 异 构 性 


互联 网 使 得 用 户 能 在 大 量 异 构 计算 机 和 网 络 上 访问 服务 和 运行 应 用 程序 。 下 面 这 些 均 存 在 异 构 性 
(《 即 存在 多 样 性 和 差别 ): 

。 网 络 ; 

© 计算 机 硬件 ; 

。 操作 系统 ; 

© 编程 语言 ， 

。 由 不 同 开发 者 完成 的 软件 实现 。 

虽然 互联 网 由 多 种 不 同 种 类 的 网 络 组 成 ( 见 图 1-3) ， 但 因为 所 有 连接 到 互联 网 的 计算 机 都 使 用 互 
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联网 协议 来 相互 通信 ， 所 以 这 些 不 同 网 络 的 区 别 被 屏蔽 了 。 例 如 ， 连 接 在 以 太 网 中 的 计算 机 要 在 以 太 
网 上 实现 互联 网 协议 ， 而 在 另 一 种 网 络 上 的 计算 机 需要 在 该 网 络 上 实现 互联 网 协议 。 第 3 RAAR H. 
联网 协议 如 何在 多 种 不 同 的 网 络 上 实现 。 

整 型 等 数据 类 型 在 不 同 种 类 的 硬件 上 可 以 有 不 同 的 表示 方法 。 例 如 ， 整 数 的 字 节 顺序 就 有 两 种 表 
示 方 法 。 如 果 要 在 不 同 硬件 上 运行 的 两 个 程序 之 间 交 换 消息 ， 那 么 就 要 处 理 它们 在 表示 上 的 不 同 。 

虽然 互联 网 上 所 有 计算 机 的 操作 系统 均 需 要 包含 互联 网 协议 的 实现 ， 但 可 以 不 为 这 些 协议 提供 相 
同 的 应 用 编程 接口 。 例 如 ，UNIX 中 消息 交换 的 调用 与 Windows 中 的 调用 是 不 一 样 的 。 

不 同 的 编程 语言 使 用 不 同 的 方式 表示 字符 和 数据 结构 〈 如 数组 和 记录 ) 。 如 果 想 让 用 不 同 语言 
写 的 程序 能 够 相互 通信 ， 那 么 必须 解决 这 些 差异 。 

不 同 开 发 者 只 有 使 用 公共 标准 ， 他 们 编写 的 程序 才能 相互 通信 。 例 如 ， 网 络 通信 和 消息 中 的 基本 
数据 项 和 数据 结构 的 表示 均 可 使 用 公共 标准 。 所 以 ， 要 制订 和 采用 公共 标准 ， 就 像 互 联网 协议 一 样 。 

RA 术语 中 间 件 是 指 一 个 软件 层 ， 它 提供 了 一 个 编程 抽象 ， 同 时 屏蔽 了 底层 网 络 、 硬 件 、 
操作 系统 和 编程 语言 的 异 构 性 。 第 4、5 和 8 章 描 述 的 公共 对 象 请 求 代理 (Common Object Request 
Broker, CORBA) 就 是 一 个 中 间 件 。 有 些 中 间 件 ， 如 Java 远程 方法 调用 (Remote Method Invocation, 
RMI) ( 见 第 5 章 ) ， 仅 支持 一 种 编程 语言 。 大 多 数 中 间 件 在 互联 网 协议 上 实现 ， 由 这 些 协议 屏蔽 了 
底层 网 络 的 差异 ， 但 所 有 的 中 间 件 要 解决 操作 系统 和 硬件 的 不 同 ， 如 何 做 到 这 一 点 将 是 第 4 章 讨 论 
的 主题 。 

除了 解决 异 构 性 的 问题 外 ， 中 间 件 为 服务 器 和 分 布 式 应 用 的 程序 员 提 供 了 一 致 的 计算 模型 。 这 些 
模型 包括 远程 对 象 调 用 、 远 程 事件 通知 、 远 程 SQL 访问 和 分 布 式 事务 处 理 。 例 如 ，CORBA 提供 了 远程 
对 象 调用 ， 它 人 允许 在 一 台 计 算 机 上 运行 的 程序 中 的 对 象 调用 在 另 一 台 计 算 机 上 运行 的 某 个 程序 中 的 一 
个 对 象 的 方法 。 它 从 实现 上 屏蔽 了 为 了 发 送 调用 请 求 和 应 答 ， 消 息 通过 网 络 传递 的 事实 。 

异 构 性 和 移动 代码 ”术语 移动 代码 指 能 从 一 台 计 算 机 发 送 到 另 一 台 计 算 机 ， 并 在 目的 计算 机 上 运 
行 的 代码 ，Java applet 是 一 个 例子 。 适 合 在 一 种 计算 机 上 运行 的 代码 未 必 适 合 在 另 一 种 计算 机 上 运行 ， 
因为 可 执行 程序 通常 依赖 于 计算 机 的 指令 集 和 操作 系统 。 

虚拟 机 方法 提供 了 一 种 使 代码 可 在 任何 计算 机 上 运行 的 方法 : 某 种 语言 的 编译 器 生成 一 台 虚 拟 机 
的 代码 而 不 是 某 种 硬件 代码 ， 例 如 ，Java 编译 器 生成 Java 虚拟 机 的 代码 ， 虚 拟 机 通过 解释 的 方式 来 执 
行 它 。 为 了 使 Java 程序 能 运行 ， 要 在 每 种 计算 机 上 实现 一 次 Java 虚拟 机 。 

今天 ， 最 常 使 用 的 移动 代码 是 将 一 些 Web 页 面 的 JavaScript 程序 装载 到 客户 浏览 器 中 。Web 技术 
在 这 方面 的 扩展 将 在 1. 6 节 做 进一步 讨论 。 


1.5.2 开放 性 


计算 机 系统 的 开放 性 是 决定 系统 能 否 以 不 同 的 方式 被 扩展 和 重新 实现 的 特征 。 分 布 式 系统 的 开放 
性 主要 取决 于 新 的 资源 共享 服务 能 被 增加 和 供 多 种 客户 程序 使 用 的 程度 。 

除非 软件 开发 者 能 获得 系统 组 件 的 关键 软件 接口 的 规约 和 文档 ， 否 则 无 法 实现 开放 性 。 一 句 话 ， 
发 布 关 键 接口 。 这 个 过 程 类 似 接口 的 标准 化 ,但 它 经 常 避 开 官方 的 标准 化 过 程 ， 官 方 的 标准 化 过 程 通 
常 烦琐 是 进 度 缓慢 。 

然而 ， 发 布 接口 仅 是 分 布 式 系统 增加 和 扩展 服务 的 起 点 。 设 计 者 所 面临 的 挑战 是 解决 由 不 同人 构 
造 的 由 许多 组 件 组 成 的 分 布 式 系 统 的 复杂 性 。 

互联 网 协议 的 设计 者 引入 了 一 系列 称 为 “征求 意见 文档 ”(Requests For Comments, RFC) 的 文档 ， 
每 个 文档 有 一 个 编号 。20 世纪 80 年 代 早 期 发 布 了 互联 网 通信 协议 的 规约 ， 并 放 人 RFC 中 ， 中 期 发 布 
了 在 互联 网 上 运行 的 应 用 的 规约 ， 如 文件 传输 规约 、 电 子 邮 件 规约 和 telnet 规约 。 这 种 活动 一 直 在 继 
续 ， 形 成 了 互联 网 技术 文档 的 基础 。 除 了 协议 规约 外 ， 该 序列 还 包含 讨论 。 读 者 可 从 [www. iett org] 
获得 这 些 资料 。 最 初 的 互联 网 通信 协议 的 发 布 使 得 各 种 互联 网 系统 和 应 用 (包括 Web) 应 运 而 生 。 
RFC 不 是 唯一 的 发 布 方式 , 例如 ， 万 维 网 联盟 (World Wide Web Consortium, W3C) 开发 和 发 布 了 与 
Web 工作 相关 的 标准 [www. w3. org]. 
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按 这 种 方式 支持 资源 共享 的 系统 之 所 以 称 为 开放 的 分 布 式 系统 ， 主 要 是 强调 它们 是 可 扩展 的 。 它 
们 可 通过 在 网 络 中 增加 计算 机 实现 在 硬件 层次 上 的 扩展 ， 通 过 引入 新 的 服务 、 重 新 实现 旧 的 服务 实现 
在 软件 层次 上 的 扩展 ， 最 终 使 得 应 用 程序 能 共享 资源 。 开 放 系 统 常 被 提 到 的 另 一 个 好 处 是 它们 与 销售 
商 无 关 。 

开放 的 分 布 式 系统 的 特征 总 结 如 下 : 

。 发 布 系统 的 关键 接口 是 开放 系统 的 特征 。 

© 开放 的 分 布 式 系统 是 基于 一 致 的 通信 机 制 和 发 布 接口 访问 共享 资源 的 。 

。 开放 的 分 布 式 系统 能 用 不 同 销售 商 提 供 的 异 构 硬 件 和 软件 构造 ， 但 如 果 想 让 系统 正确 工作 ， 就 

要 仔细 测试 和 验证 每 个 组 件 与 发 布 的 标准 之 间 的 一 致 性 。 


1.5.3 安全 性 


分 布 式 系统 中 维护 和 使 用 的 众多 信息 资源 对 用 户 具 有 很 高 的 内 在 价值 ， 因 此 它们 的 安全 相当 重要 。 
信息 资源 的 安全 性 包括 三 个 部 分 : 机 密 性 (防止 泄露 给 未 授权 的 个 人 )、 完 整 性 (防止 被 改变 或 被 破 
坏 )、 可 用 性 〈 防 止 对 访问 资源 的 手段 的 干扰 ) 。 

1. 1 节 指 出 ， 虽 然 互 联网 允许 一 台 计算 机 中 的 程序 与 另 一 台 计 算 机 上 的 程序 通信 ， 而 且 可 以 不 考 
虚 它 们 的 位 置 ， 但 安全 风险 与 允许 自由 访问 企业 内 部 网 内 的 所 有 资源 相关 。 虽 然 防火 墙 能 形成 保护 企 
业内 部 网 的 屏障 ， 限 制 进出 企业 内 部 网 的 流量 ,但 这 不 能 确保 企业 内 部 网 的 用 户 恰当 地 使 用 资源 ， 或 
恰当 地 使 用 互联 网 的 资源 ， 后 一 种 资源 不 受 防 火 墙 保护 。 

在 分 布 式 系统 中 ， 客 户 发 送 请 求 去 访问 由 服务 器 管理 的 数据 ， 这 涉及 在 网 络 上 通过 消息 发 送信 息 。 
例如 : 

1) 医生 可 能 请 求 访问 医院 病人 的 数据 或 发 送 新 增 的 病人 数据 。 

2) 在 电子 商务 和 电子 银行 中 ， 用 户 在 互联 网 上 发 送信 用 卡号 码 。 

上 面 两 个 例子 所 面临 的 挑战 是 以 安全 的 方式 在 网 络 上 通过 消息 发 送 敏感 信息 。 但 安全 性 不 只 是 涉 
及 对 消息 的 内 容 保密 ， 它 还 涉及 确切 知道 用 户 或 代表 用 户 发 送 消息 的 其 他 代理 的 身份 。 在 第 一 个 例子 
中 ， 服 务 器 要 知道 用 户 确实 是 一 个 医生 ; 在 第 二 个 例子 中 ， 用 户 要 确保 他 们 正在 交易 的 商店 或 银行 的 
身份 正确 。 这 里 ， 所 面临 的 第 二 个 挑战 是 正确 地 识别 远程 用 户 或 其 他 代理 的 身份 。 利 用 加 密 技 术 可 满 
足 这 两 个 挑战 。 加 密 技 术 被 广泛 使 用 在 互联 网 上 ， 第 11 章 将 讨论 这 个 问题 。 

然而 ， 下 列 两 个 安全 方面 所 面临 的 挑战 目前 还 没有 圆满 解决 

拒绝 服务 攻击 : 另 一 个 安全 问题 是 出 于 某 些 原 因 用 户 可 能 希望 中 断 服务 。 可 用 下 面 的 方法 实现 这 
个 目的 : 用 大 量 无 意义 的 请 求 攻击 服务 ， 使 得 重要 的 用 户 不 能 使 用 它 。 这 称 为 拒绝 服务 攻击 。 已 发 生 
几 起 对 几 个 众所周知 的 Web 服务 进行 的 拒绝 服务 攻击 。 现 在 通过 在 事件 发 生 后 抓获 和 逢 罚 犯 罪 者 来 解 
决 这 种 攻击 ， 但 这 不 是 解决 这 种 问题 的 通用 方法 。 以 改善 网 络 管理 为 根本 的 反击 手段 正在 开发 过 程 中 ， 
第 3 章 会 讲解 这 些 问题 。 

移动 代码 的 安全 性 : 移动 代码 需要 小 心 处 理 。 设 想 用 户 接收 到 一 个 作为 电子 邮件 附件 发 送 的 可 热 
行程 序 ， 那 么 运行 该 程序 会 带 来 的 后 果 是 不 可 预测 的 。 例 如 ， 它 可 能 看 似 显示 了 一 幅 有 趣 的 画 ， 但 实 
际 上 它 可 能 在 访问 本 地 资源 ， 或 可 能 是 拒绝 服务 攻击 的 一 部 分 。 确 保 移动 代码 安全 的 一 些 手段 会 在 第 
11 章 中 谈 到 。 


1. 5.4 可 伸缩 性 


分 布 式 系统 可 在 不 同 的 规模 〈 从 小 型 企业 内 部 网 到 互联 网 ) 下 有 效 且 高 效 地 运转 。 如 果 资 源 数量 
和 用 户 数量 激增 ， 系 统 仍 能 保持 其 有 效 性 ,那么 该 系统 就 称 为 可 伸缩 的 。 互 联网 上 计算 机 数量 和 服务 
器 数量 不 断 增长 。 图 1-6 列 出 到 2005 年 为 止 Web 出 现 的 12 年 间 计 算 机 和 Web 服务 器 数量 的 增长 情况 
[zakon. org] 。 值 得 一 提 的 是 ， 在 此 期 间 计算 机 和 Web 服务 器 有 巨大 的 增长 ， 而 相关 的 百分比 却 趋 于 平 
稳 ， 这 个 趋势 可 以 用 固定 和 移动 个 人 计算 的 增长 来 解释 。 一 个 Web 服务 器 也 可 以 越 来 越 多 地 部 署 在 多 
个 计算 机 上 。 
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广 一 








日 其 计算 机 Web 服务 器 百分比 | 
| 1993 年 7 月 1776000 130 0. 008 
1995 年 7 月 6 642 000 23 500 0.4 
1997 年 7 月 19 540 000 1 203 096 6 
1999 年 7 月 56218 000 6 598 697 12 
2001 年 7 月 125 888 197 31 299 592 25 
2003 年 7 月 ~200 000 000 42298 371 21 








2005 年 7 月 353 284 187 67 571 581 19 





图 1-6 互联 网 的 增长 (计算 机 和 Web 服务 器 ) 


可 伸缩 分 布 式 系统 的 设计 面临 下 列 挑战 ， 

控制 物理 资源 的 开销 : 当 对 资源 的 需求 增加 时 ， 应 该 可 以 花费 合理 的 开销 扩展 系统 以 满足 要 求 。 
例如 ， 在 企业 内 部 网 上 文件 被 访问 的 频率 可 能 随 用 户 和 计算 机 数量 的 增加 而 增加 。 如 果 一 台 文 件 服务 
器 不 能 处 理 所 有 的 文件 访问 请 求 ， 那 么 必须 能 增加 服务 器 数量 以 避免 可 能 出 现 的 性 能 瓶 须 。 通 常 ， 要 
使 有 n 个 用 户 的 系统 成 为 可 伸缩 的 ， 那么 所 需 的 物理 资源 数量 应 该 至 多 为 0(n) ， 即 正比 于 n. 例如， 
如 果 一 个 文件 服务 器 能 支持 20 个 用 户 ， 那么 两 台 这 样 的 服务 器 应 该 能 支持 40 个 用 户 。 虽 然 这 听 起 来 
好 像 是 理所当然 的 目标 ， 但 实际 上 未 必 容 易 达到 ， 具 体内 容 请 参见 第 12 章 。 

控制 性 能 损失 : 如 果 数 据 集 的 大 小 与 系统 中 的 用 户 或 资源 数量 成 正比 ， 设 想 一 下 这 些 数据 的 管理 ， 
例如 ,记录 计算 机 的 域名 和 对 应 的 由 域名 系统 持 有 的 互联 网 地 址 的 表 ， 这 种 表 主 要 用 于 查找 如 
www. amazon. com 这 样 的 DNS 名 字 。 采 用 层次 结构 的 算法 其 伸缩 性 要 好 于 使 用 线性 结构 的 算法 。 但 即 
使 使 用 层次 结构 ， 数 量 的 增加 仍 将 导致 一 些 性 能 上 的 损失 ， 即 访问 有 层次 的 结构 化 数据 的 时 间 是 
0(log n), 4n 是 数据 集 的 大 小 时 ， 对 一 个 可 伸缩 的 系统 ， 最 大 的 性 能 损失 莫 过 于 此 。 

防止 软件 资源 用 尽 : 用 做 互联 网 CIP) 地 址 (互联 网 上 的 计算 机 地 址 ) 的 数字 是 缺乏 伸缩 性 的 一 
个 例子 。 在 20 世纪 70 年 代 晚 期 ， 决 定 用 32 位 作为 互联 网 地 址 , 但 在 第 3 章 将 会 提 到 ， 可 用 的 互联 网 
地 址 将 会 用 尽 。 由 于 这 个 原因 ， 使 用 128 位 互联 网 地 址 的 新 版 的 协议 正在 被 采用 ， 这 就 要 求 对 许多 软 
件 组 件 进行 修改 。 要 对 互联 网 的 早期 设计 者 公平 一 些 ， 这 个 问题 是 没有 正确 管 案 的 ， 因 为 很 难 预 测 一 
个 系统 若干 年 后 的 需求 。 而 且 ， 过 度 考 虑 将 来 的 增长 可 能 比 面临 问题 时 再 做 改变 的 效果 更 精 ， 因 为 过 
长 的 互联 网 地 址 将 占据 额外 的 消息 空间 和 计算 机 存储 空间 。 

避免 性 能 瓶颈 : 通常 ， 算 法 应 该 是 分 散 型 ， 以 避免 性 能 瓶颈 。 我 们 用 域名 系统 的 前 身 来 说 明 这 一 
点 ,， 那 时 名 字 表 被 保存 在 一 个 主 文件 中 ， 可 被 任何 需要 它 的 计算 机 下 载 。 当 互联 网 中 只 有 几 百 个 计算 
机 时 这 是 可 以 的 ， 但 这 不 和 久 就 变 成 了 一 个 严重 的 性 能 和 管理 瓶 项 。 现 在 ， 域 名 系统 将 名 字 表 分 区 ， 分 
散 到 互联 网 中 的 服务 器 上 并 采用 本 地 管理 的 方式 ， 从 而 解决 了 这 个 瓶颈 〈 参 见 第 3 章 和 第 13 章 )。 

有 些 共 享 资 源 被 非常 频繁 地 访问 。 例 如 ， 许 多 用 户 访问 同一 Web 页 面 ， 这 会 引起 网 络 性 能 下 降 。 
我 们 将 在 第 2 章 了 解 到 缓存 和 复制 可 以 用 于 提高 频繁 使 用 的 资源 的 性 能 。 

理想 状态 下 ， 系 统 规模 增加 时 系统 和 应 用 程序 应 该 不 需要 随 之 改变 ， 但 这 一 点 很 难 达到 。 规 模 问 
题 是 分 布 式 系统 开发 中 面临 的 主要 问题 ， 本 书 将 深入 地 讨论 已 经 成 功 应 用 的 技术 。 它 们 包括 复制 数据 
的 使 用 〈 见 第 18 章 )、 缓 存 的 相关 技术 ( 见 第 2、12 章 ) 、 部 署 多 服务 器 以 处 理 经 常 执行 的 任务 从 而 
使 几 个 类 似 的 任务 能 并 发 地 完成 。 


1.5.5 故障 处 理 


计算 机 系统 有 时 会 出 现 故障 。 当 硬件 或 软件 发 生 故障 时 ， 程 序 可 能 会 产生 不 正确 的 结果 或 者 在 它 
们 完成 应 该 进行 的 计算 之 前 就 停止 了 。 第 2 章 将 讨论 可 能 在 分 布 式 系统 的 进程 和 网 络 中 发 生 的 故障 并 
对 其 进行 分 类 。 

分 布 式 系 统 的 故障 是 部 分 的 ， 也 就 是 说 ， 有 些 组 件 出 了 故障 而 有 些 组 件 运 行 正常 。 因 此 故障 的 处 
理 相当 困难 。 本 书 将 讨论 下 列 处 理 故 障 的 技术 : 

检测 故障 : 有 些 故障 能 被 检测 到 。 例 如 ， 校 验 和 可 用 于 检测 消息 或 文件 中 出 错 的 数据 。 第 2 章 将 


第 1 章 分 布 式 系 统 的 特征 


解释 其 他 一 些 故障 〈 例 如 ， 互 联网 上 一 台 远 程 服务 器 的 崩溃 ) 是 很 难 甚至 不 可 能 被 检测 到 。 面 临 的 挑 
战 是 如 何在 有 故障 出 现 的 情况 下 进行 管理 ， 这 些 故障 不 能 被 检测 到 但 可 以 被 猜 到 。 

掩盖 故障 :有 些 被 检测 到 的 故障 能 被 隐藏 起 来 或 降低 它 的 严重 程度 。 下 面 是 隐藏 故障 的 两 个 例子 : 

1) 消息 在 不 能 到 达 时 进行 重 传 。 

2) 将 文件 数据 号 入 两 个 磁盘 ， 如 果 一 个 磁盘 损坏 ， 那 么 另 一 个 磁盘 的 数据 仍 是 正确 的 。 

降低 故障 严重 程度 的 例子 是 丢掉 被 损坏 的 消息 ， 这 样 ， 该 消息 可 以 被 重 传 。 读 者 可 能 意识 到 ， 隐 
藏 故障 的 技术 不 能 保证 在 最 坏 情况 下 有 效 。 例 如 ， 第 二 个 磁盘 上 的 数据 可 能 也 坏 了， 或 消息 无 论 怎样 
重 传 都 不 能 在 合理 的 时 间 内 到 达 。 

容错 : 互联 网 上 的 大 多 数 服 务 确实 有 可 能 发 生 故 障 ， 试 图 检测 并 隐藏 在 这 样 大 的 网 络 、 这 么 多 的 
组 件 中 发 生 的 所 有 故障 是 不 太 实际 的 。 服 务 的 客户 能 被 设计 成 容错 的 ， 这 通常 也 涉及 用 户 要 容忍 错误 。 
例如 ， 当 Web 浏览 器 不 能 与 Web 服务 器 连接 时 ， 它 不 会 让 用 户 一 直 等 待 它 与 服务 器 建立 连接 ， 而 是 通 
知 用 户 这 个 问题 ， 让 用 户 自由 选择 是 否 尝 试 稍 后 再 连接 。 在 下 面 关于 元 余 的 段落 讨论 容错 的 服务 。 

故障 恢复 : 恢复 涉及 软件 的 设计 ， 以 便 在 服务 器 裔 溃 后 ， 永 久 数据 的 状态 能 被 恢复 或 “ 回 滚 ”。 
通常 ， 在 出 现 错误 时 ， 程 序 完 成 的 计算 是 不 完整 的 ， 被 更 新 的 永久 数据 (文件 和 其 他 保存 在 永久 存储 
介质 中 的 资料 ) 可 能 处 在 不 一 致 的 状态 。 恢 复 的 讲解 见 第 17 章 。 

TR: 利用 宛 余 组 件 ， 服 务 可 以 实现 容错 。 考 虑 下 面 的 例子 : 

1) 在 互联 网 的 任何 两 个 路 由 器 之 间 ， 至 少 应 该 存在 两 个 不 同 的 路 由 。 

2) 在 域名 系统 中 ， 每 个 名 字 表 至 少 被 复制 到 两 个 不 同 的 服务 器 上 。 

3) 数据 库 可 以 被 复制 到 几 个 服务 器 上 ， 以 保证 在 任何 一 个 服务 器 出 现 故障 后 数据 仍 是 可 访问 的 。 
服务 器 应 该 被 设计 成 能 检测 到 其 他 对 等 服务 器 的 错误 ， 当 检测 到 一 个 服务 器 上 有 错误 时 ， 客 户 就 被 重 
定向 到 剩 下 的 服务 器 上 。 

设计 有 效 的 技术 来 保证 服务 器 上 数据 的 副本 是 最 新 的 ， 而 且 不 过 度 地 损失 网 络 的 性 能 ， 这 是 一 个 
挑战 。 具 体 方法 将 在 第 18 章 讨 论 。 

面 对 硬件 故障 ， 分 布 式 系统 提供 高 可 用 性 。 系 统 的 可 用 性 是 对 系统 可 用 时 间 的 比例 的 一 个 度量 指 
标 。 当 分 布 式 系统 中 的 一 个 组 件 出 现 故 障 时 ， 仅 仅 是 使 用 受 损 组件 的 那 部 分 工作 受到 影响 。 如 果 用 户 
正在 使 用 的 计算 机 出 现 故 障 ， 用 户 可 以 转移 到 另 一 台 计 算 机 上 ， 并 且 服 务 器 进程 能 在 另 一 台 计 算 机 上 
启动 。 


1.5.6 并 发 性 


在 分 布 式 系统 中 ， 服 务 和 应 用 均 提 供 可 被 客户 共享 的 资源 。 因 此 ， 可 能 有 几 个 客户 同时 试图 访问 
一 个 共享 资源 的 情况 。 例 如 ， 在 接近 拍卖 最 终 期 限时 ， 记 录 拍 卖 竞 价 的 数据 结构 可 能 被 非常 频繁 地 
访问 。 

管理 共享 资源 的 进程 可 以 一 次 接收 一 个 客户 请 求 ， 但 这 种 方法 限制 了 吞吐 量 。 因 此 ， 服 务 和 应 用 
通常 允许 并 发 地 处 理 多 个 客户 请 求 。 为 了 详细 说 明 这 一 点 ， 假 设 每 个 资源 被 封装 成 一 个 对 象 ， 在 并 发 
线程 中 执行 对 资源 的 调用 。 在 这 种 情况 下 ， 几 个 线程 可 能 在 一 个 对 象 内 并 发 地 执行 ， 它 们 对 对 象 的 操 
作 可 能 相互 冲突 ， 产 生 不 一 致 的 结果 。 例 如 ， 如 果 拍 卖 中 两 个 并 发 的 竞标 是 “Smith: $122” A “Jones; 
$111”， 相 应 的 操作 在 没有 任何 控制 时 可 能 是 交错 进行 的 ， 那 么 它们 可 能 保存 成 “Smith: $111” 和 
“Jones: $122” , 

这 个 示例 的 寓意 是 ; 在 分 布 式 系统 中 ， 代 表 共 享 资源 的 任何 一 个 对 象 必须 负责 确保 它 在 并 发 环境 
中 操作 正确 ， 这 不 仅 适 用 于 服务 器 ， 也 适用 于 应 用 中 的 对 象 。 因 此 ， 持 有 未 打算 用 于 分 布 式 系统 的 对 
象 实现 的 程序 员 必须 做 一 些 事 情 ， 使 得 对 象 在 并 发 环境 中 能 安全 使 用 。 

为 了 使 对 象 在 并 发 环境 中 能 安全 使 用 ， 它 的 操作 必须 在 数据 保持 一 致 的 基础 上 同步 。 这 可 通过 标 
准 的 技术 〈 如 大 多 数 操作 系统 使 用 的 信号 量 ) 来 实现 。 这 个 主题 及 其 在 分 布 式 共享 对 象 方面 的 扩展 见 
第 7 章 和 第 17 章 的 讨论 。 


13 


[21] 


[22] 


14 


[23 | 





[Z4] 


第 1 章 分 布 式 系 统 的 特征 


1.5.7 透明 性 


透明 性 被 定义 成 对 用 户 和 应 用 程序 员 屏 蔽 分 布 式 系 统 的 组 件 的 分 离 性 ， 使 系统 被 认为 是 一 个 整体 ， 
而 不 是 独立 组 件 的 集合 。 透 明 性 的 含义 对 系统 软件 的 设计 有 重大 的 影响 。 

ANSA 参考 手册 [ANSA 1989] 和 国际 标准 化 组 织 的 开放 分 布 式 处 理 的 参考 模型 (RM-ODP) [ISO 
1992] 识别 出 八 种 透明 性 。 下 面 将 解释 最 初 的 ANSA 定义 ， 并 用 范围 更 广 的 移动 透明 性 替换 迁移 透 
明 性 : 

访问 透明 性 : 用 相同 的 操作 访问 本 地 资源 和 远程 资源 。 

位 置 透明 性 : 不 需要 知道 资源 的 物理 或 网 络 位 置 ( 例 如 ， 哪 个 建筑 物 或 P 地 址 ) 就 能 够 访问 
它们 。 

并 发 透明 性 : 几 个 进程 能 并 发 地 使 用 共享 资源 进行 操作 且 互 不 干扰 。 

复制 透明 性 : 使 用 资源 的 多 个 实例 提升 可 靠 性 和 性 能 ， 而 用 户 和 应 用 程序 员 无 须知 道 副 本 的 相关 
信息 。 

故障 透明 性 : 屏 项 错误 ,不论 是 硬件 组 件 故 障 还 是 软件 组 件 故 障 ， 用 户 和 应 用 程序 都 能 够 完成 它 
们 的 任务 。 

移动 透明 性 : 资源 和 客户 能 够 在 系统 内 移动 而 不 会 影响 用 户 或 程序 的 操作 。 

性 能 透明 性 : 当 负 载 变 化 时 ， 系 统 能 被 重新 配置 以 提高 性 能 。 

伸缩 透明 性 : 系统 和 应 用 能 够 进行 扩展 而 不 改变 系统 结构 或 应 用 算法 。 

最 重要 的 两 个 透明 性 是 访问 透明 性 和 位 置 透 明 性 ， 它 们 的 有 无 对 分 布 式 资源 的 利用 有 很 大 影响 。 
有 时 它们 统一 称 为 网 络 透明 性 。 

为 了 说 明 访问 透明 性 ， 我 们 考虑 具有 文件 夹 的 图 形 用 户 界 面 ， 无 论文 件 夹 中 的 文件 在 本 地 还 是 在 
异地 ， 图 形 用 户 界面 应 该 是 一 样 的 。 另 一 个 例子 是 API 文件 ， 它 使 用 相同 的 操作 访问 本 地 和 远程 文件 
( 见 第 12 章 ) 。 如 果 一 个 分 布 式 系统 除了 用 户 利用 fip 程序 访问 远程 计算 机 上 的 文件 之 外 ， 不 允许 再 做 
这 样 的 事 ， 那 么 它 就 可 以 作为 缺乏 访问 透明 性 的 例子 。 

Web 资源 名 或 URL 具有 位 置 透明 性 ， 因 为 URL 中 识别 Web 服务 器 域名 的 部 分 指 的 是 域 中 的 计算 
机 名 字 ， 而 不 是 互联 网 地 址 。 然 而 ，URL 不 是 移动 透明 的 ， 因 为 某 人 的 Web 页 面 不 能 移动 到 另 一 个 域 
中 新 的 工作 位 置 ， 因 为 其 他 页 面 上 的 所 有 链接 仍 将 指向 原来 的 页 面 。 

通常 ， 像 URL 这 样 的 包括 计算 机 域名 的 标识 符 妨碍 了 复制 透明 性 。 虽 然 DNS 允许 一 个 域名 指向 几 
台 计 算 机 ， 但 它 在 查找 名 字 时 只 选 其 中 的 一 台 计 算 机 。 因 为 复制 方案 通常 要 能 够 访问 网 络 中 所 有 参与 
其 中 的 计算 机 ， 所 以 应 该 根据 名 字 访 问 DNS 条 目 中 的 每 台 计 算 机 。 

为 了 说 明 网 络 透明 性 ， 考 虑 电子 邮件 地 址 (如 Fred. Flintstone@ stoneit com) 的 使 用 。 该 地 址 由 用 户 
名 和 域名 组 成 。 给 这 样 的 用 户 发 送 邮 件 不 需 知道 他 们 的 物理 位 置 或 网 络 位置 ， 发 送 邮件 消息 的 过 程 也 不 
依赖 于 接收 者 的 位 置 。 因 此 ， 互 联网 中 的 电子 邮件 支持 位 置 透明 性 和 访问 透明 性 〈 即 网 络 透 明 性 ) 。 

故障 透明 性 也 可 以 用 电子 邮件 的 例子 来 说 明 ， 即 使 服务 器 或 通信 链接 出 现 帮 障 ， 最 终 邮 件 还 是 能 
被 传递 。 此 时 故障 被 屏 珊 ， 因 为 邮件 被 一 直 重 发 直到 它 被 成 功 传递 到 目的 地 址 ， 即 使 这 个 过 程 花费 了 
几 天 时 间 。 中 间 件 通常 将 网 络 和 进程 的 故障 转换 成 程序 级 的 异常 (详细 解释 参见 第 5 章 ) 。 

为 了 说 明 移动 透明 性 ， 再 举 一 个 移动 电话 的 例子 。 假 设 打 电 话 者 和 接 电 话 者 都 在 一 个 国家 的 不 同 
地 方 乘 火车 旅行 ， 他 们 从 一 个 环境 〈 蜂 窝 ) 移 到 另 一 个 环境 。 我 们 将 打 电 话 者 的 电话 作为 客户 ， 接 电 
话 者 的 电话 作为 一 个 资源 。 两 个 使 用 电话 的 用 户 并 没有 意识 到 电话 (客户 和 资源 ) 在 蜂窝 之 间 的 
移动 。 

透明 性 对 用 户 和 应 用 程序 员 隐 藏 了 与 手头 任务 无 直接 关系 的 资源 ， 并 使 得 这 些 资源 能 被 匿名 使 用 。 
例如 ， 通 常 为 完成 任务 ， 对 相似 的 硬件 资源 的 分 配 是 可 互 换 的 一 一 用 于 执行 一 个 进程 的 处 理 器 通常 对 用 
户 隐藏 身份 并 一 直 处 于 匿名 状态 。 但 正如 1.3.2 节 指 出 的 ,情况 并 不 总 是 如 此 。 例 如 ， 旅 行者 每 到 一 
处 便 将 他 的 笔记 本 电脑 连接 到 本 地 网 络 ， 他 应 该 能 通过 每 处 的 不 同 的 服务 器 使 用 本 地 服务 (如 发 送 邮 
件 服务 ) 。 即 使 在 一 栋 建筑 物 内 ， 将 要 打印 的 文件 发 送 到 靠近 用 户 的 某 台 打印 机 上 打印 也 是 很 常见 的 。 
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1.5.8 服务 质量 


一 旦 提供 给 用 户 他 们 要 求 的 服务 的 功能 ， 例 如 在 一 个 分 布 式 系统 中 的 文件 服务 ， 我 们 就 能 继续 探 
询 所 提供 的 服务 质量 。 系 统 的 主要 的 非 功能 特性 ， 即 影响 客户 和 用 户 体验 的 服务 质量 是 可 靠 性 、 安 全 
性 和 和 性能。 满足 变化 的 系统 配置 和 资源 可 用 性 的 适应 性 已 被 公认 为 服务 质量 的 一 个 重要 方面 。 

可 靠 性 和 安全 性 问题 在 设计 大 多 数 计算 机 系统 时 是 关键 的 。 服 务 质量 的 性 能 方面 源 于 及 时 性 和 计 
算 春 吐 量 ， 但 它 已 被 重 定义 成 满足 及 时 性 保证 的 能 力 。 

一 些 应 用 ,包括 多 媒体 应 用 ， 处 理 时 间 关 键 性 数据 一 一 这 些 数 据 是 要 求 以 固定 速度 处 理 或 从 一 个 
进程 传送 到 另 一 个 进程 的 数据 流 。 例 如 ， 一 个 电影 服务 可 能 由 一 个 客户 程序 组 成 ， 该 程序 从 一 个 视频 
服务 器 中 检索 电影 并 把 它 呈 现 到 用 户 的 屏幕 上 。 该 视频 的 连续 帧 在 指定 的 时 间 限 制 内 显示 给 用 户 , 才 
算是 一 个 满意 的 结果 。 

事实 上 ,缩写 QoS 用 于 指 系统 满足 这 样 的 截止 时 间 的 能 力 ， 它 的 实现 取决 于 所 需要 的 计算 和 网 络 
资源 在 相应 时 刻 的 可 用 性 。 这 殖 仿 着 对 系统 的 一 个 需求 ， 即 系统 要 提供 有 保障 的 计算 和 通信 资源 ， 这 
些 资源 要 足以 使 得 应 用 能 按时 完成 每 个 任务 例如， 显示 视频 一 帧 的 任务 ) 。 

通常 今天 使 用 的 网 络 具有 高 性 能 一 一 例如 ，BBC iPlayer 通常 能 令 人 满意 地 播放 ， 但 当 网 络 负载 很 
重 时 ， 它 们 的 性 能 会 晋 化 ， 不 能 提供 任何 保障 。 除 了 网 络 之 外 ，QoS 可 以 应 用 到 操作 系统 。 每 个 关键 
性 资源 必须 被 需要 QoS 的 应 用 保留 ， 并 且 必 须 有 一 个 提供 保障 的 资源 管理 器 。 不 能 满足 的 资源 保留 请 
求 将 被 拒绝 。 这 些 问 题 将 在 第 20 章 进 一 步 论述 。 


1.6 实例 研究 ， 万 维 网 


万 维 网 [www. w3. org I, Berners-Lee 1991] 是 一 个 不 断 发 展 的 系统 ， 用 于 发 布 和 访问 互联 网 上 的 
资源 和 服务 。 通 过 常用 的 Web 浏览 器 ， 用 户 可 以 检索 和 查看 多 种 类 型 的 文档 、 收 听 音 频 文件 、 观 看 视 
频 文件 、 与 无 数 服 务 进 行 交 互 。 

Web 是 1989 年 在 瑞士 的 欧洲 原子 能 研究 中 心 (CERN) 诞生 的 ， 作 为 通过 互联 网 连接 的 物理 学 家 
社区 中 间 交 换文 档 用 的 工具 [Berners-Lee 1999], Web 的 一 个 关键 特征 是 它 在 所 存储 的 文档 中 提供 了 
超 文本 结构 ， 超 文本 结构 反映 了 用 户 对 组 织 知识 的 要 求 。 这 意味 着 文档 包含 链接 (或 超 链接 ) ， 链 接 
指向 其 他 存储 在 Web 上 的 文档 和 资源 。 

对 Web 用 户 来 说 ， 当 他 们 遇 到 文档 中 的 一 幅 图 像 或 一 段 文字 时 ， 它 很 可 能 伴 有 指向 相关 文档 和 其 他 
资源 的 链接 。 链 接 的 结构 可 以 任意 复杂 ， 可 加 入 的 资源 集 是 无 限 的 ， 即 链接 的 Web 确实 是 世界 范围 的 。 
Bush [1945] 在 50 年 前 就 设想 出 了 超 文 本 结构 ， 五 联网 的 发 展 使 得 这 个 想法 能 在 世界 范围 内 得 到 证 实 。 

Web 是 一 个 开放 的 系统 ， 它 可 以 被 扩展 ， 并 且 在 不 妨碍 已 有 功能 的 前 提 下 用 新 的 方法 实现 扩展 
( 见 1.5.2 节 )。 首 先 ， 它 的 操作 是 基于 被 自由 发 布 和 广泛 实现 的 通信 标准 和 文档 /内 容 标准 的 。 例 如 ， 
浏览 器 的 类 型 是 多 种 多 样 的 ， 在 多 数 情 况 下 ， 每 种 浏览 器 可 以 在 多 个 平台 上 实现 ; 有 多 种 Web 服务 器 
的 实现 。 一 种 构造 的 浏览 器 能 从 不 同 构造 的 服务 器 中 检索 资源 。 所 以 ， 用 户 能 访问 大 多 数 设 备 〈 从 移 
动 电话 到 桌面 计算 机 ) 上 的 浏览 器 。 

其 次 ， 相 对 于 能 在 其 上 发 布 和 共享 的 资源 的 类 型 而 言 ，Web 是 开放 的 。 在 Web 上 ， 最 简单 的 资源 
是 一 个 Web 页 面 或 其 他 能 提交 给 用 户 的 内 容 ， 如 媒体 文件 和 PDF 格式 的 文件 。 如 果 有 人 新 发 明了 一 种 
图 像 存储 格式 ， 那 么 这 种 格式 的 图 像 能 马上 在 Web 上 发 布 。 用 户 需 要 一 种 查看 这 种 新 格式 图 像 的 工 
具 ， 而 浏览 器 以 “帮助 者 ”应 用 和 “插件 程序 ”的 形式 来 支持 新 的 内 容 显 示 功 能 。 

Web 的 发 展 已 超越 这 些 简单 的 数据 资源 而 开始 包含 服务 ， 如 电子 化 的 商品 购买 。Web 一 直 在 发 
B, 但 其 基本 的 体系 结构 没有 改变 。Web 基于 以 下 三 个 主要 的 标准 技术 组 件 : 

© 超 文 本 标记 语言 (HyperText Markup Language, HTML) 是 页 面 在 Web 浏览 器 上 显示 时 指定 其 

内 容 和 布局 的 语言 。 
o 统一 资源 定位 器 (Uniform Resource Locator，URL) ， 也 称 为 统一 资源 标识 符 〈Uniformm Resource 
Jdentifier，URI) ， 用 于 识别 文档 和 保存 成 Web 一 部 分 的 其 他 资源 。 
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。 具有 标准 交互 规则 ( 超 文本 传输 协议 ，HTTP) 的 客户 - 服务 器 系统 体系 结构 ， 浏 览 器 和 其 他 
客户 可 利用 标准 交互 规则 从 Web 服务 器 上 获取 文档 和 其 他 资源 。 图 1-7 给 出 了 一 些 Web 服务 
器 和 向 它们 发 送 请 求 的 浏览 器 。 用 户 可 以 定位 和 管理 位 于 互联 网 上 任何 地 方 的 他 们 自己 的 Web 
服务 器 ， 这 是 一 个 很 重要 的 特征 。 

Web 服 务 器 浏览 器 


: g= 
www.goosle.con] O http://www. google.com/search?q=obama 


www.cdkS.net ( ) -一 一 互联 网 
GET http://www.cdk5.net 
wwww3corg() 一 一 Mr mee 
www.w3c.org 7 ; a) i a http://www.w3.org/standards/faq.html#conformance 
的 文件 系统 … ` 
f faq.html 


图 1-7 Web 服务 器 和 Web 浏览 器 


接 下 来 我 们 依次 讨论 这 些 组 件 ， 并 解释 用 户 获 取 Web 页 面 并 单 击 页 面 上 的 链接 时 ， 浏 览 器 和 Web 
服务 器 的 操作 。 

HTML 超 文本 标记 语言 将 这 些 内 容 [www. w3. org I] 用 于 指定 组 成 Web 页 面 内 容 的 文本 和 图 
像 ， 指 定 它们 以 何 种 布局 方式 和 组 织 方式 将 这 些 内 容 显 示 给 用 户 。Web 页 面包 含 结构 化 的 成 分 ， 如 标 
E BA, RAER HTML 也 用 于 指定 链接 和 与 链接 相关 联 的 资源 。 

用 户 可 使 用 标准 的 文本 编辑 器 手写 生成 HTML， 或 用 能 识别 HTML 的 “所 见 即 所 得 型 ”编辑 器 ， 
这 种 编辑 器 能 根据 用 户 以 图 形 方式 创建 的 一 个 布局 生成 HTML。 下 面 是 一 段 典 型 的 HTML XE, 


<IMG SRC = “http://www.cdk5.net/WebExample/Images/earth jpg ”> 了 
<P> 2 
Welcome to Earth! Visitors may also be interested in taking a look at the 3 
<A HREF = “http://www.cdk5.net/WebExample/moon.html”>Moon</A>. 4 
</P> 5 


这 段 HTML 文本 保存 在 一 个 Web 服务 器 可 以 访问 的 文件 中 ， 不 妨 称 之 为 earth. html 文件 。 浏 览 器 
M Web 服务 器 中 检索 这 个 文件 的 内 容 ， 本 例 中 是 一 个 位 于 名 为 www. cdk5. net 的 计算 机 上 的 服务 器 ， 浏 
览 器 读 取 从 服务 器 返回 的 内 容 后 ， 把 它 变 成 格式 化 的 文本 和 图 像 ， 以 大 家 熟悉 的 方式 放 到 Web 页 面 
上 。 只 能 由 浏览 器 〈 不 是 服务 器 ) 解释 HTML 文本 ， 但 是 服务 器 确实 通知 了 浏览 器 它 所 返回 的 内 容 的 
类 型 ， 用 于 区 分 html 文件 和 其 他 文件 例如 PDF 文件 。 服 务 器 能 从 文件 的 扩展 名 “. html” 中 推断 出 内 
容 类 型 。 

YE, HTML 的 指令 〈 即 标记 ) 放 在 尖 括 号 里 ， 如 <P > 。 例 子 中 的 第 1 行 确定 了 一 个 包含 图 片 显 
示 的 文件 ， 图 片 的 URL 是 http://www. cdk5. net/WebExample/Images/earth. jpg。 第 2 行 和 第 5 行 的 指令 
分 别 表示 段落 的 开始 和 结束 ， 第 3 行 和 第 4 行 包 含 要 在 Web 页 面 上 以 标准 的 段落 格式 显示 的 文本 。 

第 4 行 指定 了 Web 页 面 上 的 一 个 链接 。 它 包含 词 “Moon”， 该 词 位 于 两 个 匹配 的 HTML 标记 < A 
HREF... > 和 </A> 中 间 。 这 些 标记 之 间 的 文本 在 Web 页 面 上 显示 时 是 以 链接 的 形式 出 现 的 。 大 多 数 
浏览 器 在 默认 情况 下 给 链接 的 文本 加 下 画 线 ， 所 以 ， 用 户 看 到 的 上 面 的 段落 将 是 : 

Welcome to Earth! Visitors may also be interested in taking a look at the Moon. 

浏览 器 记录 了 链接 的 显示 文本 和 包含 在 <A HREF... > 标记 中 的 URL 之 间 的 关联 ， 在 这 个 例子 
中 是 : 

http://www.cdk5.net/WebExample/moon.html 

当 用 户 单 击 文本 时 ， 浏 览 器 获取 由 相应 URL 识别 的 资源 ， 并 将 它 显示 给 用 户 。 在 这 个 例子 中 ， 资 
源 是 一 个 HTML 文件 ， 它 指定 了 关于 月 亮 的 一 个 Web 页 面 。 


第 1 章 分 布 式 系统 的 特征 + 17 


URL 统一 资源 定位 器 [www. w3. org M) 的 作用 是 识别 资源 。 在 Web 体系 结构 文档 中 使 用 的 术 
语 是 统一 资源 标识 符 〈URI) ， 在 不 引起 混淆 的 前 提 下 ， 本 书 使 用 更 为 人 们 所 熟悉 的 术语 URL。 浏 览 器 
检查 URL 以 便 访 问 相应 的 资源 。 有 时 用 户 在 浏览 器 中 输入 一 个 URL。 更 常见 的 方式 是 用 户 单 击 一 个 链 
接 或 选择 一 个 书签 ， 由 浏览 器 查找 相应 的 URL; 或 当 浏览 器 去 取 一 个 Web 页 面 里 的 内 藤 资 源 〈 如 一 个 
图 像 ) 时 ， 由 浏览 器 查找 相应 的 URL. 

按 绝对 完整 的 格式 ,每 一 个 URL 有 两 个 顶层 的 组 成 部 分 : 

模式 :模式 特定 的 标识 符 

第 一 个 成 分 “模式 ”声明 了 URL AA, BER URL 能 识别 各 种 资源 。 例 如 ，mailto: joe @ 
anISP. net 标识 出 一 个 用 户 的 电子 邮件 地 址 ; fp :ftp. downloadIt. com/software/aProg. exe 标识 一 个 用 文 
件 传送 协议 (File Transfer Protocol, FIP) 获取 而 不 是 用 更 常用 的 HTTP 协议 获取 的 文件 。 模 式 的 其 他 
例子 有 “tel”( 用 于 指定 一 个 要 拨打 的 电话 号 码 ， 在 移动 电话 上 浏览 时 特别 有 用 ) A tag” (AFER 
识 一 个 任意 实体 ) 。 

利用 URL 中 的 模式 指示 器 从 Web 可 访问 的 资源 类 型 的 角度 来 说 ， 它 是 开放 的 。 如 果 有 人 发 明了 一 
种 新 的 有 用 的 “widget” 资 源 一 一 可 能 用 它 专 有 的 寻 址 方案 定位 widget， 用 它 专 有 的 协议 访问 wid- 
get 一 一 那么 大 家 就 能 使 用 widget:. .. 格式 的 URL。 当 然 ， 浏览 器 必须 具备 使 用 新 的 “widget” 协 议 的 
能 力 ， 这 一 点 可 通过 增加 一 个 插件 实现 。 

HTTP URL 是 使 用 最 广泛 的 ， 它 利用 标准 的 HTTP 协议 访问 资源 。HTTP URL 有 两 项 主要 的 工作 : 
识别 出 哪 一 个 Web 服务 器 维护 资源 ;识别 出 该 服务 器 上 的 哪些 资源 是 被 请 求 的 。 图 1-7 显示 了 三 个 浏 
览 器 发 出 请 求 ， 而 被 请 求 的 资源 由 三 个 Web 服务 器 管理 。 最 上 面 的 浏览 器 向 一 个 搜索 引擎 发 出 查询 ， 
第 二 个 浏览 器 请 求 另 一 个 Web 站 点 的 默认 页 。 最 下 面 的 浏览 器 请 求 一 个 指定 了 全 名 〈 包 括 了 相对 于 服 
务 器 的 路 径 名 ) 的 Web Wi. Web 服务 器 的 文件 保存 在 服务 器 文件 系统 的 一 个 或 多 个 子 树 (目录 ) 
下 ， 每 一 个 资源 用 相对 于 服务 器 的 路 径 名 识别 。 

通常 ，HTTE URL 具有 下 列 格式 ， 

jiiip :和 服务 器 名 [ :端口 1[/ 路 径 名 ][? EKIA] 
其 中 方 揪 号 中 的 项 是 可 选 的 。 一 个 HTTP URL 全 名 总 是 以 “http:NH” 开 始 ， 后 跟 一 个 服务 器 名 ,该 服 
务 器 名 表示 成 一 个 域名 系统 (Domain Name System, DNS) 名 字 (参见 13.2 节 )。 服 务 器 的 DNS 名 后 
面 可 以 选 加 服务 器 监听 请 求 的 “端口 ”号 (参见 第 4 章 ) ， 默 认 端 口号 是 80。 端 口号 后 面 是 可 选 的 服 
务 器 资源 的 路 径 名 ， 如 果 没 有 这 一 项 ， 那 么 请 求 的 是 服务 器 的 默认 页 。 最 后 ，URL 以 一 个 可 选 的 查询 
成 分 (例如 ， 当 一 个 用 户 提交 诸如 搜索 引擎 查询 页 这 样 的 表单 中 的 项 ) 或 片段 标识 符 〈 它 标识 资源 的 
组 成 成 分 ) 结束 。 

考虑 下 面 的 URL: 

http :// www. cdk5. net 


hitp ;// www. w3. org/standards/faq. himlitconformance 
http ;// www. google. com/search? q = obama 














上 述 URL 可 分 解 成 如 下 部 分 : 
| ”服务 器 DNS 名 BER, 查询 片段 
www. cdk5. net (默认 ) (无 ) (无 ) 
www. w3. org standards/ faq. html (无 ) intro 
www. google. com search q = obama (无 ) 








第 一 个 URL 指定 了 由 www. cdk5. net 提供 的 默认 页 ， 第 二 个 URL 指定 了 与 www. w3. org 服务 器 相关 的 路 

径 名 为 standards/faq. html 的 HTML 文件 的 片段 。 片 段 标识 符 (由 URL 中 # 后 面 的 字符 指定 ) 是 intro, 
浏览 器 下 载 整个 文件 后 将 在 HTML 文本 中 查找 该 片段 标识 符 。 第 三 个 URL 给 搜索 引擎 指定 一 个 查询 。 

路 径 指 定 了 一 个 名 为 “search” 的 程序 ,“?” 字 符 后 面 的 串 是 作为 该 程序 的 参数 查询 字符 串 。 在 考虑 

更 高 级 的 特征 时 ， 我 们 将 详细 讨论 识别 程序 资源 的 URL. 
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发 布 资源 : 虽然 Web 有 一 个 用 于 从 URL 访问 资源 的 清晰 定义 的 模型 ， 但 是 在 Web 上 发 布 资源 的 
方法 仍然 依赖 于 Web 服务 器 的 实现 。 就 底层 机 制 而 言 ， 最 简单 的 在 Web 上 发 布 资源 的 方法 是 在 Web 
服务 器 能 访问 的 目录 下 放 上 相应 的 文件 。 用 户 知 道 了 服务 器 S 的 名 称 和 服务 器 能 认识 的 文件 P 的 路 径 
名 ， 才 能 构造 像 http;YS/P 这 样 的 URL。 用 户 可 以 把 这 个 URL 放 在 已 有 文档 中 作为 一 个 链接 或 将 这 个 
URL 发 给 〈 例 如 ， 通 过 电子 邮件 ) 其 他 用 户 。 

在 生成 内 容 时 对 用 户 隐藏 这 样 的 考虑 是 很 常见 的 。 例 如 , “博客 作者 ”通常 使 用 实现 成 Web 页 面 的 
软件 工具 来 创建 组 织 好 的 页 面 集 合 ， 一 个 公司 的 Web 站 点 的 产品 页 通常 用 一 个 内 容 管 理 系统 创建 ， 也 是 
通过 直接 与 Web 站 点 的 管理 性 Web 页 面 交互 来 实现 。 产 品 页 所 基于 的 数据 库 或 文件 系统 是 透明 的 。 

Huang 等 人 [2000] 提供 了 一 个 模型 ， 该 模型 可 以 实现 以 最 少 的 人 工 干 预 将 内 容 插入 Web。 它 在 
用 户 需要 从 多 种 设备 《如 照相 机 ) 提取 内 容 发 布 到 Web 页 面 时 特别 有 用 。 

HTTP 超 文本 传输 协议 [www. w3. org IV] 定义 了 浏览 器 和 其 他 类 型 的 客户 与 Web 服务 器 的 交 
BAK. BS 章 将 详细 讨论 HITP， 这 里 先 概述 它 的 主要 特征 〈 我 们 的 讨论 将 限制 在 对 文件 资源 的 检 
RE): 

WR- BARE, HIP 是 一 个 “请 求 ~ 应 答 ” 协 议 。 客 户 发 送 一 个 请 求 消息 给 被 请 求 资 源 的 
URL 所 在 的 服务 器 。 服 务 器 查找 路 径 名 ， 如 果 它 存在 ， 就 在 应 答 消息 中 将 文件 内 容 返回 给 客户 。 否 则 ， 
它 返 回 一 个 出 错 应 答 ， 例 如 大 家 熟悉 的 “404 Not Found” 消 息 。HTTP 定义 了 一 些 能 在 一 个 资源 上 操作 
的 操作 集合 或 方法 。 最 常见 的 操作 是 GET 和 POST， 它 们 从 资源 中 检索 数据 以 及 提供 数据 给 资源 。 

内 容 类 型 : 浏览 器 未 必 能 够 处 理 每 一 种 内 容 类 型 。 当 浏览 器 发 出 一 个 请 求 时 ， 其 中 包括 浏览 器 擅 
长 处 理 的 内 容 类 型 的 清单 一 一 例如 ， 原 则 上 浏览 器 能 够 以 “GIF” 格 式 而 不 是 “JPEG” 格 式 显示 图 像 。 
服务 器 在 将 内 容 返 回 给 浏览 器 时 可 能 能 考虑 到 这 些 方面 。 服 务 器 在 应 答 消 息 中 包含 内 容 类 型 ， 以 便 浏 
览 器 知道 如 何 处 理 服务 器 返回 的 内 容 。 表 示 内 容 类 型 的 串 称 为 MIME 类 型 ，RFC 1521 [Freed and Bo- 
renstein 1996] 已 对 其 做 了 标准 化 。 例 如 ， 如 果 内 容 是 “text/html” 类 型 ， 那么 浏览 器 将 把 文本 解释 成 
HTML 并 加 以 显示 ; 如 果 内 容 是 “image/GIF” 类 型 ， BRAM ARS “CIF” BABAR GRR 
像 ， 如 果 内 容 类 型 是 “application/zip”， 那 么 说 明 它 是 以 “zip” 格 式 压 缩 的 数据 ， 浏 览 器 将 启动 一 个 
外 部 的 帮助 者 应 用 程序 将 数据 解压 缩 。 浏 览 器 对 指定 的 内 容 类 型 所 采取 的 动作 是 可 配置 的 ， 读 者 可 以 
检查 自己 浏览 器 的 设置 。 

一 次 请 求 一 个 资源 ; 客户 的 每 个 HTTP 请 求 只 指定 一 个 资源 。 如 果 Web 页 面包 含 TAR, BA 
浏览 器 总 共 要 发 出 10 个 单独 请 求 才能 获得 该 页 完整 的 内 容 。 通 常 浏览 器 可 同时 发 出 几 个 请 求 ， 以 减少 
对 用 户 的 整体 延迟 。 

简单 的 访问 控制 : 默认 情况 下 ， 通 过 网 络 与 Web 服务 器 相连 的 用 户 能 访问 所 有 已 发 布 的 资源 。 如 
果 用 户 希 望 限制 对 一 个 资源 的 访问 ， 那 么 他 们 要 配置 服务 器 ， 给 发 出 请 求 的 客户 回 发 一 个 “质询 ”。 
对 应 的 用 户 要 证 明 他 们 有 权限 访问 该 资源 〈 如 通过 输入 口令 )。 

动态 页 面 ”到 自前 为 止 ， 我 们 已 经 描述 了 用 户 如 何在 Web 上 发 布 Web 页 面 和 其 他 保存 在 文件 中 的 
内 容 ， 然 而 大 多 数 用 户 对 Web 的 经 验 来 自 与 服务 的 交互 而 不 是 检索 数据 。 例 如 ， 当 用 户 在 一 个 网 上 商 
店 中 购买 一 个 物品 时 ， 用 户 经 常 要 填写 一 个 Web 表单 ， 写 明 他 们 的 个 人 信息 或 详细 说 明 他 们 要 购买 什 
么 商品 。Web 表单 是 包含 用 户 指令 和 诸如 文本 字段 、 复 选 框 等 窗口 输入 部 件 的 Web 页 面 。 当 用 户 提交 
表单 (通常 通过 按 下 按钮 或 “ 回 车 ” 键 ) 后 ,浏览 器 就 发 送 一 个 HTTP 请 求 到 Web 服务 器 ， 请 求 中 包 
含 了 用 户 已 经 输入 的 值 。 

因为 请 求 的 结果 取决 于 用 户 的 输入 ， 所 以 服务 器 必须 处 理 用 户 的 输入 。 因 此 ，URL 或 它 的 第 一 个 
成 分 要 指定 服务 器 上 的 一 个 程序 ， 而 不 是 一 个 文件 。 如 果 用 户 的 输入 是 少量 的 参数 ， 那 么 它 通常 用 
GET 方法 作为 URL 的 查询 成 分 发 送 ; RA, CH POST 方法 作为 请 求 中 的 额外 数据 发 送 。 例 如 ， 包含 
URL “http://www. google. com/search? q = obama ”的 请 求 表示 调用 “www. google. com” 上 的 一 个 
“search” 程 序 并 指定 了 一 个 查询 串 “obama”。 

“search” 程序 产生 HTML 文本 作为 输出 ， 用 户 将 看 见 若干 包含 单词 “obama” 的 页 面 。( 读 者 可 以 
在 自己 常用 的 搜索 引擎 上 输入 一 个 查询 ， 注 意 查看 在 返回 结果 时 浏览 器 显示 的 URL。) 服务 器 返回 
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“search” 程 序 生成 的 HTML 文本 ， 就 好 像 是 从 文件 中 检索 到 的 一 样 。 换 而 言 之 ， 从 一 个 文件 中 获取 的 
静态 内 容 和 动态 生成 的 内 容 间 的 差别 对 浏览 器 是 透明 的 。 

Web 服务 器 上 运行 的 为 客户 生成 内 容 的 程序 通常 称 为 公共 网 关 接 口 〈Common Gateway Interface, 
CGI) 程序 。 一 个 CGI 程序 可 以 具有 任何 特定 应 用 的 功能 ， 只 要 它 能 分 析 客 户 提供 给 它 的 参数 ， 产 生 
所 要 求 类 型 的 内 容 (通常 是 HTML 文本 ) ， 程 序 在 处 理 请 求 时 会 经 常 查询 或 更 新 数据 库 。 

下 载 的 代码 : CGI 程序 在 服务 器 上 运行 。 有 时 Web 服务 的 设计 者 需要 一 些 与 服务 相关 的 代码 ， 以 
便 在 用 户 计 算 机 的 浏览 器 内 部 运行 。 例 如 ， 用 Javascript [ www. netscape. com] 编写 的 代码 下 载 时 通常 
WA Web 表单 ， 以 便 提 供 比 HTML 标准 窗口 部 件 质量 更 好 的 用 户 交 互 。 用 Javascript 增强 的 页 面 可 针对 
无 效 项 为 用 户 提供 及 时 的 反馈 (而 不 是 在 服务 器 端 检 查 用 户 输入 值 ， 这 种 方法 要 花费 较 长 的 时 间 )。 

Javascript 也 能 用 于 更 新 Web 页 面 的 部 分 内 容 而 不 必 取 得 该 页 面 的 全 新 版 本 并 重新 显示 。 发 生 这 些 
动态 的 更 新 或 者 缘 于 一 个 用 户 行为 《例如 单 击 一 个 链接 或 一 个 单 选 按钮 ) 或 者 当 浏 览 器 从 提供 Web 页 
面 的 服务 器 那里 获得 新 数据 时 。 在 后 面 这 种 情况 下 ， 因 为 数据 到 达 的 及 时 性 与 浏览 器 用 户 的 动作 没有 
关系 ， 所 以 称 为 异步 的 。AJAX (Asynchronous Javascript And XML) 技术 用 于 此 种 情况 。2. 3.2 节 将 更 
详细 地 描述 AJAX。 

另 一 种 Javascript 程序 是 applet: 用 Java 语言 [Flanagan 2002] 写 的 一 个 应 用 程序 ， 在 浏览 器 取得 
相应 Web 页 面 时 能 自动 下 载 并 运行 的 应 用 程序 。applet 可 以 访问 网 络 ， 提 供 定 制 的 用 户 界面 ， 例 如 ， 
“聊天 ”应 用 程序 有 时 用 applet 实现 ， 它 在 用 户 的 浏览 器 上 运行 ， 同 时 还 要 有 一 个 服务 器 程序 。applet 
把 用 户 的 文本 发 送 给 服务 器 ， 服 务 器 再 给 所 有 的 applet 分 发 该 文本 以 给 用 户 显示 内 容 。2. 3. 1 节 将 详细 
讨论 applet. 

Web RS 到 目前 为 止 ， 我 们 主要 从 用 户 操作 浏览 器 的 角度 讨论 Web， 但 除 浏 览 器 之 外 的 程序 也 
可 以 是 Web 的 客户 ; 通过 程序 访问 Web 资源 确实 也 是 常事 。 

然而 ，HTML 不 适合 程序 之 间 的 互 操 作 。 交 换 Web 上 的 多 种 类 型 的 结构 化 数据 的 需求 在 上 升 ， 但 
HTML 的 功能 是 有 限制 的 ， 因 为 它 对 信息 浏览 之 外 的 应 用 是 没有 扩展 性 的 。HTML 具有 一 套 静 态 结构 
(例如 有 段落)， 并 且 其 数据 显示 给 用 户 的 方式 也 是 受 限 的 。 可 扩展 标记 语言 (Extensible Markup Lan- 
guage, XML) ( 见 4.3.3 节 ) 是 一 种 以 标准 的 、 结 构 化 的 、 特 定 于 应 用 的 格式 表示 数据 的 方式 。 从 原 
理 上 看 ， 用 XML 表示 的 数据 在 不 同 应 用 间 是 可 移植 的 ， 因 为 它 是 自 描述 的 : 它 包 含 数据 元 素 的 名 
字 、 类 型 和 结构 。 例 如 ，XML 可 用 于 为 不 同 的 服务 或 应 用 描述 产品 或 用 户 的 信息 。 在 HITP 协议 中 ， 
XML 数据 通过 POST 和 GET 操作 传递 。 在 AJAX 中 ，XML 可 以 用 于 给 浏览 器 中 的 Javascript 程序 提供 
数据 。 

Web 资源 提供 服务 特定 的 操作 。 例 如 ， 在 amazon. com 网 上 商店 ，Web 服务 操作 包括 订购 图 书 和 检 
查 订 单 当 前 状态 。 正 如 我 们 已 提 到 的 ，RTTP 提供 少量 可 应 用 于 任 一 资源 的 操作 。 这 些 操 作 主 要 包括 对 
已 存在 资源 的 GET 和 POST 方法 以 及 分 别 用 于 创建 和 删除 Web 资源 的 PUT 和 DELETE 操作 。 用 一 个 
GET 或 POST 方法 以 及 用 于 指定 操作 的 参数 、 结 果 和 出 错 应 答 的 结构 化 内 容 ， 能 调用 对 一 个 资源 的 任 
一 操作 。 用 于 Web 服务 的 所 谓 的 REST (REpresentational State Transfer) 体系 结构 【Fielding 2000] 在 
其 扩展 性 基础 上 采用 这 种 方法 : 在 Web 上 的 每 一 个 资源 有 一 个 URL 和 对 相同 操作 集 的 应 答 ， 虽 然 操 作 
的 处 理 可 能 随 资源 的 不 同 而 变化 很 大 。 这 种 扩展 性 的 另 一 面 是 在 软件 怎样 操作 方面 缺乏 健壮 性 。 第 9 
章 进 一 步 讨 论 REST， 并 深入 探讨 Web 服务 框架 ， 从 而 使 得 Web 服务 的 设计 者 能 描述 哪些 服务 特定 的 
操作 对 程序 员 更 可 用 以 及 客户 应 当 如 何 访 问 它 们 。 

对 Web Mit Web 之 所 以 取得 巨大 成 功 ， 是 因为 许多 个 人 和 机 构 能 比较 容易 地 发 布 资源 ， 它 的 
超 文 本 结构 适合 组 织 多 种 类 型 的 信息 ， 而 且 Web 系统 体系 结构 具有 开放 性 。Web 的 体系 结构 所 基于 的 
标准 很 简单 ， 而 且 它 们 早已 被 广泛 地 发 布 。 它 们 使 得 许多 新 的 资源 类 型 和 服务 可 以 集成 在 一 起 。 

Web 成 功 的 背后 也 存在 一 些 设 计 问 题 。 首 先 ， a ee Rune A 如 果 删 除 或 
移动 了 一 个 资源 ， 那 么 就 会 存在 对 资源 的 所 请 “ 芒 空 ， 会 使 用 户 请 求 落空 。 此 外 ， 还 存在 用 户 
“在 超 空 间 迷 失 ” 这 个 常见 的 问题 。 用 户 经 常 发 现 自 TRAIT. 跟随 许多 无 关 的 链接 打开 完 
全 不 同 的 页 面 ， 使 得 在 有 些 情况 下 其 可 靠 性 值得 怀疑 。 
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在 Web 上 查找 信息 的 另 一 种 方法 是 使 用 搜索 引擎 ， 但 这 种 方法 在 满足 用 户 真 正 需求 方面 是 相当 不 
完美 的 。 要 解决 这 个 问题 ， 资 源 描述 框架 [ www. w3. org V] 中 介绍 过 ， 一 种 方法 是 生成 标准 的 表达 事 
物 元 数据 的 词汇 、 语 法 和 语义 ， 并 将 元 数据 封装 在 相应 的 Web 资源 中 供 程序 访问 。 除 了 查找 Web 页 面 
中 出 现 的 词组 外 ， 从 原理 上 讲 ， 程 序 可 以 完成 针对 元 数据 的 搜索 ， 然 后 ， 根 据 语 义 匹 配 编译 相关 的 链 
接 列 表 。 总 而 言 之 ， 由 互 连 的 元 数据 资源 组 成 的 Web 就 是 语义 Web, 

作为 一 个 系统 体系 结构 ，Web 面临 规模 的 问题 。 常 见 的 Web 服务 器 会 在 一 秒 中 有 很 多 点 击 量 ， 结 
果 导 致 对 用 户 的 应 答 变 慢 。 第 2 章 将 描述 在 浏览 器 和 代理 服务 器 中 使 用 缓存 来 加 快 应 答 ， 以 及 将 服务 
器 负载 分 配 到 集群 计算 机 上 。 


1.7 小 结 


分 布 式 系统 无 处 不 在 。 互 联网 使 得 全 世界 用 户 无 论 走 到 哪里 都 能 访问 互联 网 上 的 服务 。 每 个 组 织 
管理 一 个 企业 内 部 网 ， 并 通过 该 企业 内 部 网 为 本 地 用 户 提 供 本 地 服务 和 互联 网 服务 ， 也 为 互联 网 上 的 
其 他 用 户 提供 服务 。 小 型 的 分 布 式 系统 可 由 移动 计算 机 和 其 他 可 连接 到 无 线 网 络 的 小 型 计算 设备 构造 。 

资源 共享 是 构造 分 布 式 系统 的 主要 因素 。 打 印 机 、 文 件 、Web 页 面 或 数据 库 记 录 这 样 的 资源 均 由 
相应 类 型 的 服务 器 管理 。 例 如 ，Web 服务 器 管理 Web 页 面 和 其 他 Web 资源 。 资 源 由 客户 访问 ， 例 如 ， 
Web 服务 器 的 客户 通常 称 为 浏览 器 。 

分 布 式 系 统 的 构造 面临 着 许多 挑战 : 

FAL: 分 布 式 系统 必须 由 多 种 不 同 的 网 络 、 操 作 系 统 、 计 算 机 硬件 和 编程 语言 构成 。 互 联网 通 
信 协 议 屏蔽 了 网 络 的 差异 ， 中 间 件 能 处 理 其 他 的 差异 。 

开放 性 : 分 布 式 系统 应 该 是 可 扩展 的 一 一 第 一 步 是 发 布 组 件 的 接口 ， 但 由 不 同 程序 员 编 写 的 组 件 
的 集成 是 一 个 真正 的 挑战 。 

安全 性 : 加 密 用 于 为 共享 资源 提供 充分 的 保护 ， 在 网 络 上 用 消息 传送 敏感 信息 时 ， 可 以 通过 加 密 
的 手段 来 保护 敏感 信息 。 服 务 拒绝 攻击 仍然 是 一 个 问题 。 

可 伸缩 性 ， 就 必须 要 增加 的 资源 而 言 ， 如 果 分 布 式 系 统 增加 一 个 用 户 的 开销 是 一 个 常量 ， 那 么 这 
个 分 布 式 系统 是 可 伸缩 的 。 用 于 访问 共享 数据 的 算法 应 该 避免 性 能 瓶颈 ， 数 据 应 该 组 织 成 层次 化 的 结 
构 以 获得 最 好 的 访问 时 间 。 频 繁 访问 的 数据 应 能 被 复制 。 

故障 处 理 : 任 一 进程 、 计 算 机 或 网 络 都 可 能 独立 地 出 现 故 障 。 因 此 每 个 组 件 需 要 清楚 其 所 依赖 的 
组 件 可 能 出 现 故障 的 方式 ， 组 件 应 当 被 设计 成 能 适当 地 处 理 每 个 故障 。 

并 发 性 ; 分 布 式 系统 中 多 个 用 户 的 存在 是 对 资源 产生 并 发 请 求 的 根源 。 每 个 资源 必须 被 设计 成 在 
并 发 环境 中 是 安全 的 。 

透明 性 : 此 特性 的 目的 是 为 了 保证 分 布 的 某 些 方面 对 应 用 程序 员 不 可 见 ， 这 样 应 用 程序 员 只 需要 
关心 特定 应 用 的 设计 问题 。 例 如 ， 程 序 员 不 需要 关心 特定 应 用 的 位 置 或 操作 如 何 被 其 他 组 件 访问 等 细 
节 问 题 , 或 它 是 否 被 复制 或 迁移 。 其 至 网 络 和 进程 放 障 也 可 以 以 异常 的 形式 (但 异常 必须 被 处 理 ) A 
现 给 应 用 程序 员 。 

服务 质量 : 在 分 布 式 系统 中 仅 提 供 对 服务 的 访问 是 不 够 的 。 特 别 是 ， 提 供与 服务 访问 相关 的 质量 
保障 也 是 重要 的 。 这 种 质量 的 例子 包括 与 性 能 、 安 全 性 和 可 靠 性 相关 的 参数 。 


练习 
1.1 列 出 能 被 共享 的 五 种 类 型 的 硬件 资源 和 五 种 类 型 的 数据 或 软件 资源 ， 并 举 出 它们 在 实际 的 分 布 式 系统 
中 发 生 共 享 的 例子 。 (第 2，14 页 )9 
1.2 在 不 参考 外 部 时 间 源 的 情况 下 ， 通 过 本 地 网 络 连接 的 两 台 计 算 机 的 时 钟 如 何 同步 ? 什么 因素 限制 了 你 
描述 的 过 程 的 准确 性 ? 由 互联 网 连接 的 大 量 的 计算 机 的 时 钟 是 如 何 同步 的 ? 讨论 该 过 程 的 准确 性 。 
(第 2 页 ) 
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考虑 1.2.2 节 讨 论 的 大 型 多 人 在 线 游戏 的 实现 策略 。 采 用 单一 服务 器 方法 表示 多 个 玩家 游戏 状态 的 好 
处 是 什么 ? 这 存在 什么 问题 以 及 如 何 解 决 ? (第 5 页 ) 
一 个 用 户 随 身 携带 可 以 无 线 连 网 的 PDA， 来 到 一 个 从 没有 到 过 的 火车 站 。 请 给 出 建议 ; 在 用 户 不 输入 
火车 站 的 名 称 或 属性 的 情况 下 ， 如何 得 到 关于 本 地 服务 和 火车 站 环境 的 情况 ?要 解决 哪些 技术 问题 ? 
(第 13 页 ) 
比较 云 计算 和 更 传统 的 客户 -服务 器 计算 。 云 计算 作为 一 个 概念 ， 有 什么 新 的 特点 ? (第 13，14 页 ) 
用 万 维 网 作 例 子 说 明 资 源 共 享 、 窜 户 和 服务 器 的 概念 。 作 为 信息 浏览 的 核心 技术 ，HTML、URL 和 
HTTP 各 自 的 优势 和 不 足 是 什么 ”这些 技术 是 否 适合 作为 客户 -服务 器 计算 的 基础 ? (第 14, 26 页 ) 
用 一 种 程序 设计 语言 (例如 C++) 编写 的 一 个 服务 器 程序 提供 了 一 个 BLOB 对 象 的 实现 ， 该 对 象 用 
于 被 不 同 语言 〈 例 如 Java) 编写 的 客户 访问 。 客 户 计算 机 和 服务 器 计算 机 可 以 有 不 同 的 硬件 ， 但 它们 
都 连 到 企业 内 部 网 上 。 要 使 得 一 个 客户 对 象 调用 服务 器 对 象 上 的 方法 ， 请 描述 由 于 异 构 性 的 五 个 方面 


所 带 来 的 需要 解决 的 问题 。 (第 16 页 ) 
一 个 开放 的 分 布 式 系统 允许 添加 新 的 资源 共享 服务 (如 练习 1.7 中 的 BLOB 对 象 ) 并 被 多 种 客户 程序 
访问 。 讨 论 在 这 个 例子 中 ， 开 放 性 的 需求 与 异 构 性 的 需求 在 什么 范围 内 有 所 不 辐 。 (第 17 页 ) 


假设 BLOB 对 象 的 操作 分 成 两 类 : 用 于 所 有 用 户 的 公共 操作 和 仅 对 某 些 命名 用 户 开放 的 受 保护 操作 。 
阐述 为 确保 只 有 命名 用 户 才能 使 用 保护 操作 所 涉及 的 所 有 问题 。 假 设 调用 一 个 受 保护 的 操作 ， 却 获得 
了 不 能 对 所 有 用 户 公开 的 信息 ， 将 会 引起 什么 问题 ? (第 18 页 ) 
INFO 服务 管理 一 个 可 能 非常 大 的 资源 集 ， 用 户 能 通过 互联 网 利用 关键 字 〈 一 个 字符 串 名 字 ) 访问 
这 些 资源 。 讨 论 资源 名 字 的 设计 方法 ， 使 得 在 服务 中 的 资源 数量 增加 时 性 能 的 损失 最 小 。 对 INFO 


服务 的 实现 提出 建议 ， 以 避免 在 用 户 数量 变 得 很 大 时 性 能 出 现 瓶 颈 。 (3% 19 W) 
列 出 在 客户 进程 调用 服务 器 对 锭 的 方法 时 可 能 出 现 故 障 的 三 个 主要 软件 组 件 ， 针 对 每 一 种 情况 给 出 
一 个 故障 例子 。 对 组 件 的 设计 给 出 建议 ， 使 得 它 能 容忍 彼此 的 故障 。 (38 21 页 ) 


一 个 服务 器 进程 维护 一 个 共享 的 信息 对 象 【 如 练习 1.7 中 的 BLOB 对 象 ) 。 讨 论 是 否 允 许 客 户 请 求 在 
服务 器 上 并 发 执行 。 在 它们 并 发 执行 时 ， 给 出 可 能 在 不 同 客户 操作 之 间 发 生 “干扰 ”的 例子 ， 说 明 
如 何 和 避免 这 种 干扰 。 (第 22 页 ) 
一 个 服务 由 几 个 服务 器 实现 ， 试 解释 为 什么 资源 能 在 它们 之 间 传 输 。 要 实现 客户 的 移动 透明 性 ， 采 
用 客户 多 播 所 有 的 请 求 到 服务 器 组 是 否 能 获得 满意 的 效果 ? (第 23 页 ) 
Web 上 的 资源 和 其 他 服务 用 URL 命名 ， 缩 略语 URL 是 指 什么 ? 给 出 能 用 URL 命名 的 三 种 不 同 的 
Web 资源 例子 。 (第 26 页 ) 
给 出 一 个 HTTP URL 的 例子 。 列 出 HTTP URL 的 主要 成 分 ， 阐 述 各 个 成 分 是 如 何 表示 的 ， 举 例 说 明 
每 个 成 分 。 在 什么 程度 上 HTTP URL 是 位 置 透明 的 ? (第 26 页 ) 
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系统 模型 


本 章 提供 三 个 重要 且 互 补 的 解释 方法 ， 以 便 有 效 地 描述 和 讨论 分 布 式 系统 的 设计 : 

物理 模型 考虑 组 成 系统 的 计算 机 和 设备 的 类 型 以 及 它们 的 互 连 ， 不 涉及 特定 的 技术 细节 。 

体系 结构 模型 是 从 系统 的 计算 元 素 执 行 的 计算 和 通信 任务 方面 来 描述 系统 ; 这 里 计算 元 素 或 是 指 
单个 计算 机 或 是 指 通过 网 络 互 连 的 计算 机 集合 。 客 户 -服务 器 和 对 等 模型 是 分 布 式 系统 中 的 两 种 最 常 
使 用 的 体系 结构 模型 。 

基础 模型 采用 抽象 的 观点 描述 大 多 数 分 布 式 系统 面临 的 单个 问题 的 解决 方案 。 

在 分 布 式 系统 中 没有 全 局 时 间 ， 所 以 不 同 计算 机 上 的 时 钟 未 必 给 出 相同 的 时 间 。 进 程 间 的 所 有 通 
信和 是 通过 消息 完成 的 。 计 算 机 网 络 上 的 消息 通信 会 受 延迟 的 影响 ,会 遇 到 多 种 故障 ， 对 安全 方面 的 攻 
击 很 脆弱 。 这 些 问 题 通过 下 面 三 个 模型 论述 : 

。 交互 模型 处 理 分 布 式 系统 的 性 能 问题 并 解决 在 分 布 式 系 统 中 设置 时 间 约 束 的 困难 ， 例 如 消息 传 

送 的 时 间 约 束 。 

。 故障 模型 试图 给 出 进程 和 通信 通道 故障 的 一 个 精确 的 规约 。 它 定义 了 可 靠 的 通信 和 正确 的 

进程 。 

。 安全 模型 讨论 对 进程 和 通信 通道 的 各 种 可 能 的 威胁 。 它 引入 了 安全 通道 的 概念 ， 安 全 通道 能 保 

证 在 上 述 威胁 下 通信 的 安全 。 


2.1 简介 


打算 在 实际 环境 中 使 用 的 系统 应 该 在 各 种 可 能 的 环境 下 ， 面 对 各 种 困难 和 潜在 的 威胁 OS 
“分 布 式 系统 的 困难 和 威胁 ”部 分 将 给 出 一 些 例子 ) 时 ,保证 其 功能 的 正确 性 。 第 1 章 的 讨论 和 例子 
表明 不 同类 型 的 分 布 式 系统 共享 重要 的 基本 特性 ， 也 出 现 了 公共 的 设计 问题 。 本 章 以 描述 性 模型 的 形 
式 给 出 分 布 式 系统 的 公共 特性 和 设计 问题 。 每 类 模型 试图 对 分 布 式 系统 设计 的 一 个 相关 方面 给 出 抽象 、 
简化 但 一 致 的 描述 。 

物理 模型 是 描述 系统 的 一 个 最 显 式 的 方法 ， 它 从 计算 机 【和 其 他 设备 ， 例 如 移动 电话 ) 及 其 互联 
的 网 络 方面 考虑 系统 的 硬件 组 成 。 

体系 结构 模型 从 系统 的 计算 元 素 执行 的 计算 和 通信 任务 方面 来 描述 系统 。 

基础 模型 采用 抽象 的 观点 描述 分 布 式 系统 的 某 个 方面 。 本 章 介绍 考察 分 布 式 系统 三 个 重要 方面 
HAMM: 交互 模型 ， 它 考虑 在 系统 元 素 之 间 通 信和 的 结构 和 顺序 ; 故障 模型 ， 它 考虑 一 个 系统 可 
能 不 能 正确 操作 的 方式 ;安全 模型， 它 考虑 如 何 保 护 系 统 使 其 不 受到 正确 操作 的 干扰 或 不 被 窃取 
数据 。 








分 布 式 系 统 的 困难 和 威胁 ”下面 是 分 布 式 系统 设计 者 要 面 对 的 一 些 问题 。 

使 用 模式 的 多 样 性 : 系统 的 组 件 会 承受 各 种 工作 负载 ， 例 如 ， 有 些 Web 页 面 每 天 会 有 几 百 万 
次 的 访问 量 。 系 统 的 有 些 部 分 可 能 断 线 或 连接 不 稳定 ， 例 如 ， 当 系统 中 包括 移动 计算 机 时 。 一 些 应 
用 对 通信 带宽 和 延迟 有 特殊 的 需求 ， 例 如 ， 多 媒体 应 用 。 

系统 环境 的 多 样 性 : 分 布 式 系统 必须 能 容纳 异 构 的 硬件 、 操 作 系统 和 网 络 。 网 络 可 能 在 性 能 上 
有 很 大 不 同 ， 如 无 线 网 的 速度 只 达到 局 域 网 的 几 分 之 一 。 必 须 支 持 不 同 规模 的 系统 ， 从 几 十 人 台 计 算 
机 到 上 百 万 台 计 算 机 。 

内 部 问题 ; 包括 非 同步 的 时 钟 、 冲 突 的 数据 更 新 、 多 种 涉及 系统 单个 组 件 的 软 硬 件 故障 模式 。 

外 部 威胁 : 包括 对 数据 完整 性 、 保 密 性 的 攻击 以 及 服务 拒绝 攻击 。 
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2.2 物理 模型 
物理 模型 是 从 计算 机 和 所 用 网 络 技术 的 特定 细节 中 抽象 出 来 的 分 布 式 系 统 底 层 硬 件 元 素 的 
表示 。 
基线 物理 模型 : 在 第 1 章 中 ， 分 布 式 系统 被 定义 成 其 位 于 联网 计算 机 上 的 硬件 或 软件 组 件 仅 通过 
消息 传递 进行 通信 和 协调 动作 的 系统 。 这 引出 分 布 式 系 统 的 最 小 物理 模型 ， 最 小 物理 模型 是 一 组 可 扩 
展 的 计算 机 结 点 ， 这 些 结 点 通过 计算 机 网 络 相互 连接 进行 所 需 的 消息 传递 。 
在 这 个 基线 模型 之 上 ， 我 们 能 有 效 地 识别 出 三 代 分 布 式 系统 。 
早期 的 分 布 式 系统 : 这 样 的 系统 出 现在 20 世纪 70 年 代 晚 期 和 80 年 代 早期 ， 随 着 局 域 网 技术 如 以 
AM (参见 3.5 节 ) 的 出 现 而 出 现 。 这 些 系统 一 般 由 通过 局 域 网 互联 的 10 ~ 100 个 结 点 组 成 ， 它 们 与 
互联 网 的 连接 有 限 并 支持 少量 的 服务 (如 共享 的 本 地 打印 机 和 文件 服务 器 以 及 电子 邮件 和 互联 网 上 的 
文件 传输 )。 单 个 的 系统 大 部 分 是 同 构 的 ， 开 放 性 不 是 主要 的 问题 。 服 务 质量 提供 还 很 少 ， 是 围绕 这 样 
的 早期 系统 开展 的 很 多 研究 中 的 一 个 焦点 。 
互联 网 规模 的 分 布 式 系统 : 在 这 个 基础 上 ，20 世纪 90 年 代 更 大 规模 的 分 布 式 系统 开始 出 现 ， 以 
适应 当时 互联 网 惊人 的 发 展 〈 例 如 ，Google 搜索 引擎 在 1996 年 第 一 次 发 布 ) 。 在 这 样 的 系统 中 ， 底 层 
物理 基础 设施 由 第 1 章 图 1-3 所 示 的 物理 模型 组 成 ， 即 一 个 可 扩展 的 结 点 集合 ， 这 些 结 点 通过 一 个 网 
络 的 网 络 〈 互 联网 ) 相互 连接 。 这 样 的 系统 利用 了 互联 网 提供 的 基础 设施 从 而 变 成 真正 的 全 球 化 。 它 
们 包含 大 量 的 结 点 并 且 为 全 球 化 组 织 提 供 分 布 式 系统 服务 ， 也 跨 组 织 提 供 分 布 式 系统 服务 。 在 这 样 的 
系统 中 ， 从 网 络 、 计 算 机 体系 结构 、 操 作 系 统 、 所 采用 的 语言 和 所 涉及 的 开发 轩 队 方面 来 说 ， 蜡 构 性 
是 很 突出 的 。 这 导致 开放 标准 和 相关 的 中 间 件 技术 (如 CORBA 和 最 近 的 Web 服务 等 ) 的 重要 性 不 断 
增加 。 在 这 样 的 全 球 化 系统 中 ,采用 了 额外 的 服务 来 提供 端 到 端的 服务 质量 特性 。 
当代 的 分 布 式 系统 : 在 上 述 系统 中 ， 结 点 通常 是 台式 机 ， 因 此 是 相对 静态 的 《 即 在 一 段 时 间 蛙 停 
留 在 一 个 物理 位 置 )、 分 立 的 (没有 嵌 人 到 其 他 物理 实体 内 ) 和 自治 的 《就 物理 基础 设施 而 言 ， 很 大 
程度 上 独立 于 其 他 计算 机 ) 。1. 3 节 介 绍 的 关键 趋势 促进 了 物理 模型 的 进一步 发 展 : 
。 移动 计算 的 出 现 导致 这 样 的 物理 模型 ， 在 这 种 模型 中 ， 像 笔记 本 电脑 或 智能 手机 这 样 的 结 点 可 
以 从 一 个 位 置 移 动 到 另 一 个 位 置 ， 它 还 导致 了 对 诸如 服务 发 现 这 样 的 新 增 功能 的 需要 和 对 自发 
互 操作 的 支持 。 
。 无 处 不 在 计算 的 出 现 导致 了 体系 结构 从 分 立 结 点 型 转向 计算 机 被 嵌 人 到 日 常 物品 和 周围 环境 中 
(例如 ， 嵌入 在 尝 农 机 中 或 更 一 般 地 嵌入 在 智能 家 庭 设备 中 ) 。 
© 云 计算 特别 是 集群 体系 结构 的 出 现 导 致 了 从 自治 结 点 完成 给 定 任务 转向 一 组 结 点 一 起 提供 一 个 
给 定 的 服务 〈 例 如 ， 由 Google 提供 的 搜索 服务 ) 。 
最 终 的 结果 是 出 现 一 个 异 构 性 有 很 大 增加 的 物理 体系 结构 ， 例 如 ， 从 无 处 不 在 计算 中 使 用 的 最 小 
的 典 信 式 设备 到 网 格 计算 中 的 复杂 的 计算 元 素 。 这 些 系 统 部 署 不 断 增加 的 不 同 的 网 络 技术 ， 并 提供 广 
泛 的 应 用 和 服务 。 这 样 的 系统 可 能 涉及 成 百 上 千 个 结 点 。 
系统 的 分 布 式 系统 ”最 近 的 一 个 报告 讨论 了 超大 规模 (Ultra- Large- Scale，ULS) 的 分 布 式 系统 
[ www. sei. cmu. edu] 。 报 告 收集 了 现代 分 布 式 系统 的 复杂 性 ， 把 这 样 的 〈 物 理 ) 体系 结构 叫做 系统 的 
系统 (反映 了 与 将 互联 网 看 成 网 络 的 网 络 相 辣 的 观点 ) 。 系 统 的 系统 可 以 被 定义 成 一 个 复杂 系统 ， 它 
由 一 系列 子 系统 组 成 ， 这 些 子 系统 本 身 也 是 系统 ， 它 们 一 起 完成 一 个 或 多 个 特定 的 任务 。 
作为 系统 的 系统 的 一 个 例子 ， 考 虑 一 个 用 于 洪水 预测 的 环境 管理 系统 。 在 这 样 一 个 场景 中 ， 部 署 
了 传 感 网 来 监视 与 河流 、 冲 积 平原 、 潮 汐 效应 等 相关 的 不 同 的 环境 参数 的 状态 。 这 可 以 通过 在 集群 计 
算 机 (相关 讨论 参见 第 1 章 ) 上 运行 模拟 程序 ， 与 负责 预测 洪水 可 能 性 的 系统 耦合 在 一 起 。 可 以 建立 
其 他 系统 用 于 维护 和 分 析 历史 数据 或 通过 移动 电话 给 关键 的 利益 共享 着 提供 早期 报警 。 
BA 图 2-1 总 结 了 本 节 提 出 的 三 代 分 布 式 系统 ， 从 管理 异 构 性 水 平 以 及 提供 关键 特性 〈 如 开放 
性 和 服务 质量 ) 的 角度 ， 用 表格 显示 了 与 当代 分 布 式 系统 相关 的 重要 挑战 。 
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| 分 布 式 系 统 早 期 互联 网 规模 当代 | 
规模 小 大 超大 
异 构 性 。 有 限 〈 相 对 同 构 的 配置 ) 。 从 平台 、 语 言 和 中 间 件 。 ”维度 增加 ， 包 括 体系 结构 中 完全 不 同 的 
方面 来 说 都 较 大 风格 
开放 性 。 不 属于 优先 考虑 的 事 相当 重要 ,引信 一 系列 重要 的 研究 挑战 ， 已 有 的 标准 不 能 包含 
标准 复杂 系统 
服务 质量 。 起步 阶段 相当 重要 ， 引 人 一 系列 ”重要 的 研究 挑战 ， 已 有 的 服务 不 能 包含 
服务 复杂 系统 








图 2-1 分 布 式 系统 的 分 代 


2.3 体系 结构 模型 


一 个 系统 的 体系 结构 是 用 独立 指定 的 组 件 以 及 这 些 组 件 之 间 的 关系 来 表示 的 结构 。 整 体 目标 是 确 
保 结 构 能 满足 现在 和 将 来 可 能 的 需求 。 主 要 关心 的 是 系统 可 靠 性 、 可 管理 性 、 适 应 性 和 性 价 比 。 建 筑 
物 的 体系 结构 设计 有 类 似 的 方面 ， 不 仅 要 决定 它 的 外 观 ， 还 决定 其 总 体 结 构 和 体系 结构 风格 〈 哥 特 式 、 
新 古典 式 、 现 代 式 ) ， 并 为 设计 提供 一 个 一 致 的 参考 框架 。 

本 节 将 描述 分 布 式 系统 采用 的 几 种 主要 的 体系 结构 模型 ， 即 分 布 式 系统 的 体系 结构 风格 。 特 别 的， 
为 读者 全 面 理解 客户 - 服务 器 模型 、 对 等 方法 、 分 布 式 对 象 、 分 布 式 组 件 、 分 布 式 基于 事件 的 系统 以 
及 这 些 风 格 之 间 的 不 同 之 处 葛 定 基础 。 

本 节 采 取 一 种 三 阶段 方法 ; 

。 首先 ， 描 述 支 撑 现 代 分 布 式 系统 的 核心 基本 体系 结构 元 素 ， 重 点 展示 现在 已 有 方法 的 不 同 ; 

。 考察 能 在 开发 复杂 分 布 式 系统 解决 方案 中 单独 使 用 或 组 合 使 用 的 复合 体系 结构 模式 ; 

。 最 后 ， 对 于 以 上 体系 结构 风格 中 出 现 的 不 同 编程 风格 ， 考 虑 可 用 于 支持 它们 的 中 间 件 乎 台 。 

注意 ， 有 许多 与 本 章 中 介绍 的 体系 结构 模型 相关 的 权衡 ， 其 中 涉及 采用 的 系统 体系 结构 元 素 、 所 
采用 的 模式 和 《在 合适 的 地 方 ) 使 用 的 中 间 件 ， 它 们 会 影响 结果 系统 的 性 能 和 有 效 性 。 理 解 这 样 的 权 
衡 可 以 说 是 分 布 式 系统 设计 中 的 关键 技能 。 


2.3.1 体系 结构 元 素 


为 了 理解 一 个 分 布 式 系统 的 基础 构建 块 ， 有 必要 考虑 下 面 四 个 关键 问题 : 

© 在 分 布 式 系 统 中 进行 通信 的 实体 是 什么 ? 

。 它们 如 何 通 信 ， 特 别 是 使 用 什么 通信 范 型 ? 

。 它们 在 整个 体系 结构 中 扮演 什么 〈 可 能 改变 的 ) AE, REAR? 

。 它们 怎样 被 映射 到 物理 分 布 式 基础 设施 上 (它们 被 放置 在 哪里 )? 

通信 实体 ”上述 前 两 个 问题 是 理解 分 布 式 系统 的 关键 ; 什么 是 通信 和 这 些 实体 如 何 相互 通信 为 分 
布 式 系统 开发 者 定义 了 一 个 丰富 的 设计 空间 。 它 对 从 面向 系统 和 面向 问题 的 角度 解决 第 一 个 问题 是 有 
帮助 的 。 

从 系统 的 观点 ， 回 答 通常 是 非常 清楚 的 ， 这 是 因为 在 一 个 分 布 式 系统 中 通信 的 实体 通常 是 进程 ， 
这 导致 普遍 地 把 分 布 式 系统 看 成 是 带 有 恰当 进程 间 通信 范 型 的 多 个 进程 (如 在 第 4 章 中 讨论 的 ) ， 有 
两 个 注意 事项 : 

。 在 一 些 原 始 环境 中 ， 例 如 传感器 网 络 ， 基 本 的 操作 系统 可 能 不 支持 进程 抽象 〈 或 甚至 任何 形式 

的 隔离 ) ， 因 此 在 这 些 系 统 中 通信 的 实体 是 结 点 。 

。 在 大 多 数 分 布 式 系统 环境 中 ， 用 线程 补充 进程 ， 所 以 ， 严 格 说 来 ， 通 信 的 末端 是 线程 。 

在 某 个 层面 上 ， 这 对 建 模 一 个 分 布 式 系统 是 足够 的 ，2. 4 节 考 虑 的 基础 模型 也 确实 采用 了 这 个 观 
点 。 然 而 ， 从 编程 的 观点 来 看 ， 这 还 不 够 ,更 多 面向 问题 的 抽象 已 经 被 提出 : 

对 象 : 对 象 已 被 引 人 以 便 在 分 布 式 系统 中 使 用 面向 对 象 的 方法 (包括 面向 对 象 的 设计 和 面向 对 象 
的 编程 语言 ) 。 在 分 布 式 面向 对 象 的 方法 中 ， 一 个 计算 由 若干 交互 的 对 象 组 成 ， 这 些 对 象 代表 分 解 给 定 
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问题 领域 的 自然 单元 。 对 象 通过 接口 被 访问 ， 用 一 个 相关 的 接口 定义 语言 (IDL) 提供 定义 在 一 个 对 
象 上 的 方法 的 规约 。 分 布 式 对 象 已 经 成 为 分 布 式 系 统 研 究 的 一 个 主要 领域 ， 第 5 章 和 第 8 章 将 进一步 
讨论 这 个 话题 。 

“ye: 因为 对 象 的 引入 ， 许 多 重要 的 问题 已 被 认为 与 分 布 式 对 象 有 关 ， 组 件 技术 的 出 现 及 使 用 是 
对 这 些 弱 点 的 一 个 直接 响应 。 组 件 类 似 于 对 象 ， 因 为 它们 为 构造 分 布 式 系统 提供 面向 问题 的 抽 稼 ， 也 
是 通过 接口 被 访问 。 关 键 的 区 别 在 于 组 件 不 仅 指 定 其 (提供 的 ) 接口 而 且 给 出 关于 其 他 组 件 / 接 口 的 
假设 ,其 他 组 件 / 接 口 是 组 件 完 成 它 的 功能 必须 有 的 。 换 句 话 说 ,组 件 使 得 所 有 依赖 显 式 化 ， 为 系统 的 
构造 提供 一 个 更 完整 的 合约 。 这 个 合约 化 的 方法 鼓励 和 促进 第 三 方 开发 组 件 ， 也 通过 去 除 隐 含 的 依赖 
提升 了 一 个 更 纯粹 的 组 合 化 方法 来 构造 分 布 式 系 统 。 基 于 组 件 的 中 间 件 经 常 对 关键 领域 如 部 署 和 服务 
器 方 编程 支持 提供 额外 的 支持 [Heineman and Councill 2001 ] 。 关 于 基于 组 件 方法 的 进一步 细节 请 参见 
第 8 章 。 

Web RH: Web 服务 代表 开发 分 布 式 系统 的 第 三 种 重要 的 范 型 「 Alonso et al. 2004], Web 服务 与 
对 象 和 组 件 紧 密 相关 ， 也 是 采取 基于 行为 封装 和 通过 接口 访问 的 方法 。 但 是 ， 相 比 而 言 ， 通 过 利用 
Web 标准 表示 和 发 现 服务 ，Web 服务 本 质 上 是 被 集成 到 万 维 网 ( 即 W3C) 的 。W3C (World Wide 
Web) 联盟 把 Web 服务 定义 成 : 

一 个 软件 应 用 ， 通 过 URI HBR, CHE ORS HEH XML 制品 被 定义 、 描 述 和 发 

现 。 一 个 Web 服务 通过 在 基于 互联 网 的 协议 上 利用 基于 XML 的 消息 交换 支持 与 其 他 软件 代 

理 的 直接 交互 。 

换 句 话说 ，Web 服务 采用 的 基于 Web 的 技术 在 一 定 程 度 上 定义 了 Web 服务 。 另 一 个 重要 的 区 别 来 
源 于 技术 使 用 的 风格 。 对 象 和 组 件 经 常 在 一 个 组 织 内 部 使 用 ， 用 于 开发 紧 耦合 的 应 用 ， 但 Web 服务 本 
身 通常 被 看 成 完整 的 服务 ,它们 可 以 组 合 起 来 获得 增值 服务 ， 它 们 经 常 跨 组 织 边 界 ， 因 此 可 以 实现 业 
务 到 业务 的 集成 。Web 服务 可 以 由 不 同 的 提供 商用 不 同 的 底层 技术 实现 。Web 服务 将 在 第 9 章 做 进 一 
步 的 探讨 。 

通信 范 型 ”我们 现在 转向 在 分 布 式 系 统 中 实体 如 何 通信 ， 考 虑 三 种 通信 荡 型 ; 

e 进程 间 通 信 ， 

。 远程 调用 ; 

。 间接 通信 。 

进程 间 通 信 指 的 是 用 于 分 布 式 系统 进程 之 间 通 信 的 相对 底层 的 支持 ， 包 括 消息 传递 原 语 、 直 接 访 
问 由 互联 网 协议 提供 的 API ( 套 接 字 编 程 ) 和 对 多 播 通信 的 支持 。 第 4 章 将 详细 讨论 这 样 的 服务 。 

远程 调用 代表 分 布 式 系统 中 最 常见 的 通信 范 型 ， 覆 盖 一 系列 分 布 式 系 统 中 通信 实体 之 间 基 于 双向 
交换 的 技术 ， 包 括 调用 远程 操作 、 过 程 或 方法 。 进 一 步 的 定义 参见 下 面 内 容 (详细 讨论 见 第 5 章 ) : 

请 求 - 应 答 协议 是 一 个 有 效 的 模式 ， 它 加 在 一 个 底层 消息 传递 服务 之 上 上， 用 于 支持 客户 - 服务 器 
计算 。 特 别 的 ， 这 样 的 协议 通常 涉及 一 对 消息 的 交换 ， 消 息 从 客户 到 服务 器 ， 接 着 从 服务 器 返回 客户 ， 
第 一 个 消息 包含 在 服务 器 端 执行 的 操作 的 编码 ， 然 后 是 保存 相关 参数 的 字 节 数组 ， 第 二 个 消息 包含 操 
作 的 结果 ， 它 也 被 编码 成 字 节 数组 。 这 种 范 型 相对 原始 ， 实 际 上 仅 被 用 于 艇 人 式 系 统 ， 对 冉 人 式 系统 来 
说 性 能 是 至 关 重 要 的 。 这 个 方法 也 被 用 在 5. 2 节 描 述 的 HTTP 协议 中 。 正 如 下 面 讨论 的 ， 大 多 数 分 布 式 
系统 将 选择 使 用 远程 过 程 调用 或 者 远程 方法 调用 ， 但 注意 底层 的 请 求 - 应答 交 换 支 持 两 种 方法 。 

远程 过 程 调用 〈Remote Procedure Call, RPC) 的 概念 ， 最 初 由 Birel 和 Nelson [1984] 提出 ， 代 
表 了 分 布 式 计 算 中 的 一 个 主要 突破 。 在 RPC 中 ,远程 计算 机 上 进程 中 的 过 程 能 被 调用 ， 好 像 它们 是 在 
本 地 地 址 空间 中 的 过 程 一 样 。 底 层 RPC 系统 隐藏 了 分 布 的 重要 方面 ， 包 括 参 数 和 结果 的 编码 和 解码 、 
消息 的 传递 和 保持 过 程 调 用 所 要 求 的 语义 。 这 个 方法 直接 而 且 得 体 地 支持 了 客户 - 服务 器 计算 ， 其 中 ， 
服务 器 通过 一 个 服务 接口 提供 一 套 操 作 ， 当 这 些 操作 本 地 可 用 时 客户 直接 调用 这 些 操作 。 因 此 ，RPC 
系统 (在 最 低 程 度 上 ) 提供 访问 和 位 置 透明 性 。 

远程 方法 调用 (Remote Method Invocation, RMI) 非常 类 似 于 远程 过 程 调用 ， 但 它 应 用 于 分 布 式 对 
象 的 环境 。 用 这 种 方法 ， 一 个 发 起 调用 的 对 象 能 调用 一 个 远程 对 象 中 的 方法 。 与 RPC 一 样 ， 底 层 的 细 
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节 都 对 用 户 隐 藏 。 不 过 ， 通 过 支持 对 象 标识 和 在 远程 调用 中 传递 对 象 标识 符 作 为 参数 ，RMI 实现 做 得 
更 多 。 它 们 也 从 与 面向 对 象 语言 LSS 章 相关 讨论 ) 的 紧密 集成 中 获得 更 多 的 好 处 。 

上 述 技术 具有 一 个 共同 点 : 通信 代表 发 送 者 和 接收 者 之 间 的 双向 关系 ， 其 中 ,发送 者 显 式 地 把 消 
上 息 / 调 用 送 往 相关 的 接收 者 。 接 收 者 通常 了 解 发 送 者 的 标识 ， 在 大 多 数 情 况 下 ， 双 方 必须 在 同时 存在 。 
Mite, 已 经 出 现 若 干 技术 ， 这些 技 术 支 持 间接 通信 ， 通 过 第 三 个 实体 ， 人 允许 在 发 送 者 和 接收 者 之 
间 的 深度 解 耦合 。 尤 其 是 : 

。 发 送 者 不 需要 知道 他 们 正在 发 送 给 谁 〈 空 间 解 耦合 ) 。 

© 发 送 者 和 接收 者 不 需要 同时 存在 (ARES). 

第 6 章 将 详细 讨论 间接 通信 。 

间接 通信 的 关键 技术 包括 : 

组 通信 : 组 通信 涉及 消息 传递 给 若干 接收 者 ， 因 此 是 支持 一 对 多 通信 的 多 方 通信 范 型 。 组 通信 依 

(44) 赖 组 抽象 ， 一 个 组 在 系统 中 用 一 个 组 标识 符 表 示 。 接 收 方 通过 加 入 组 ， 就 能 选择 性 接收 发 送 到 组 的 消 
息 。 发 送 者 通过 组 标识 符 发 送 消息 给 组 ， 因 此 ， 不 需要 知道 消息 的 接收 者 。 组 通常 也 要 维护 组 成 员 ， 
具有 处 理 组 成 员 故 障 的 机 制 。 

发 布 - 订 阅 系统 : 许多 系统 ， 例 如 第 1 章 中 金融 贸易 的 例子 ， 被 归 类 于 信息 分 发 系统 ， 其 中 ， 大 
景 生产 者 (或 发 布 者 ) 为 大 量 的 消费 者 (或 订阅 者 ) 发 布 他 们 感 兴趣 的 信息 项 (事件 )。 采 用 前 述 的 
任 一 核心 通信 范 型 来 实现 这 个 需求 是 复杂 且 低 效 的 ， 因 此 ， 出 现 了 发 布 - 订阅 系统 (有 时 也 叫 分 布 式 
基于 事件 的 系统 ) 用 于 满足 此 项 重要 需求 [Muh et al. 2006 ]。 发 布 - 订阅 系统 共享 间 一 个 关键 的 特 
征 ， 即 提供 一 个 中 间 服 务 ， 有 效 确保 由 生产 者 生成 的 信息 被 路 由 到 需要 这 个 信息 的 消费 者 。 

消息 队列 : 虽然 发 布 -订阅 系统 提供 一 种 一 对 多 风格 的 通信 ， 但 消息 队列 提供 了 点 对 点 服务 ， 其 
中 生产 者 进程 能 发 送 消息 到 一 个 指定 的 队列 ， 消 费 者 进程 能 从 队列 中 接收 消息 ， 或 被 通知 队列 里 有 新 
消息 到 达 。 因 此 ， 队 列 是 生产 者 和 消费 者 进程 的 中 介 。 

元 组 空 闻 : 元 组 空间 提供 了 进一步 的 间接 通信 服务 ， 并 支持 这 样 的 模型 一 一 进程 能 把 任意 的 结构 
化 数据 项 〈 称 为 元 组 ) 放 到 一 个 持久 元 组 空间 ， 其 他 进程 可 以 指定 感 兴趣 的 模式 ， 从 而 可 以 在 元 组 空 
间 读 或 者 删除 元 组 。 因 为 元 组 空间 是 持久 的 ， 读 操作 者 和 写 操作 者 不 需要 同时 存在 。 这 种 风格 的 编程 ， 
也 被 称 为 生成 通信 ， 由 Gelemter [1985] 作为 一 种 并 行 编程 范 型 引信 。 已 经 开发 了 不 少 分 布 式 实现 ， 
采用 了 客户 - 服务 器 - 风格 的 实现 或 采用 了 更 分 散 的 对 等 方法 。 

分 布 式 共享 内 存 : 分 布 式 共享 内 存 (Distributed Shared Memory, DSM) 系统 提供 一 种 抽象 ， 用 于 
支持 在 不 共享 物理 内 存 的 进程 之 间 共 享 数 据 。 提 供给 程序 员 的 是 一 套 熟 悉 的 读 或 写 〈 共 享 ) 数据 结构 
的 抽象 ， 就 好 像 这 些 数据 在 程序 员 自 己 本 地 的 地 址 空间 一 样 ， 从 而 提供 了 高 层 的 分 布 透明 性 。 基 本 的 
基础 设施 必须 确保 以 及 时 的 方式 提供 副本 ， 也 必须 处 理 与 数据 同步 和 一 致 性 相关 的 问题 。 分 布 式 共享 




















内 存 的 概述 在 第 6 章 中 介绍 。 
图 2-2 总 结 了 到 目前 为 止 讨论 的 体系 结构 。 

通信 实体 (什么 在 通信 ) | 通信 范 型 〔 它 们 怎样 通信 ) _| 

面向 系统 的 实体 面向 问题 的 实体 进程 间 通 信 | 远程 调用 T 间接 通信 

结 点 WR 消息 传递 请 求 - 应 答 组 通信 

进程 组 件 EEF RPC 发 布 -订阅 

Web 服务 多 播 RMI 消息 队列 

元 组 空间 

| DSM 








图 2-2 通信 实体 和 通信 范 型 
角色 和 责任 ”在 一 个 分 布 式 系统 中 ， 进程， 或 者 说 , 对象、 组 件 、 服 务 ， 包 括 Web 服务 (为 简单 


起 见 ， 我 们 在 本 节 中 使 用 术语 “进程 ”") 相互 交互 完成 一 个 有 用 的 活动 ， 例 如 支持 一 次 聊天 会 话 。 在 
[45] 这样 做 的 时 候 ， 进 程 扮演 给 定 的 角色 ， 在 建立 所 采用 的 整体 体系 结构 时 ， 这 些 角 色 是 基本 的 。 本 节 我 
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们 考察 两 种 起 源 于 单个 进程 角色 的 体系 结构 风格 : 客户 - 服务 器 风格 和 对 等 风格 。 

客户 -服务 器 : 这 是 讨论 分 布 式 系统 时 最 常 引用 的 体系 结构 。 它 是 历史 上 最 重要 的 体系 结构 ， 现 
在 仍 被 广泛 地 使 用 。 图 2-3 给 出 了 一 个 简单 的 结构 ， 其 中 ， 进 程 扮演 服务 器 和 客户 的 角色 。 特 别 是 ， 
为 了 访问 服务 器 管理 的 共享 资源 ， 客 户 进程 可 以 与 不 同 主机 上 的 服务 器 进程 交互 。 








图 例 : 
进程 : Co) 计算 机 : 
图 2-3 客户 调用 单个 服务 器 


如 图 2-3 所 示 ， 一 台 服 务 器 也 可 以 是 其 他 服务 器 的 客户 。 例 如 ，Web 服务 器 通常 是 管理 存储 Web 
页 面 文件 的 本 地 文件 服务 器 的 客户 。Web 服务 器 和 大 多 数 其 他 互联 网 服务 是 DNS 服务 的 客户 ，DNS 服 
务 用 于 将 互联 网 域名 翻译 成 网 络 地 址 。 另 一 个 与 Web 相关 的 例子 是 搜索 引 掌 ， 搜 索引 警 能 让 用 户 通过 
互联 网 查看 Web 页 面 上 可 用 的 信息 汇总 。 这 些 信息 汇总 通过 称 为 “Web 抓 取 ” 的 程序 形成 ， 该 程序 在 
搜索 引擎 站 点 以 后 台 方式 运行 ， 利 用 HTTP 请 求 访问 互联 网 上 的 Web 服务 器 。 因 此 ， 搜 索引 擎 既是 服 
务 器 又 是 客户 : 它 回答 来 自 浏览 器 客户 的 查询 ， 并 且 运行 作为 其 他 Web 服务 器 客户 的 Web 抓 取 程序 。 
在 这 个 例子 中 ， 服 务 器 任务 〈 对 用 户 查 询 的 回答 ) 和 Web 抓 取 的 任务 (向 其 他 Web 服务 器 发 送 请 求 ) 
是 完全 独立 的 ， 很 少 需要 同步 它们 ， 它 们 可 以 并 行 运行 。 事 实 上 ， 一 个 典型 的 搜索 引擎 正常 情况 下 包 
含 许多 并 发 执行 的 线程 ， 一 些 线程 为 它 的 客户 服务 ， 另 一 些 线程 运行 Web 抓 取 程序 。 练 习 2. 5 将 请 读 
者 考虑 这 种 类 型 的 并 发 搜索 引擎 会 出 现 的 同步 问题 。 

对 等 体系 结构 : 在 这 种 体系 结构 中 ， 涉 及 一 项 任务 或 活动 的 所 有 进程 扮演 相同 的 角色 ， 作 为 对 等 
方 进行 协作 交互 ， 不 区 分 客户 和 服务 器 或 运行 它们 的 计算 机 。 在 实 跨 中 ， 所 有 的 参与 进程 运行 相同 的 
程序 并 且 相互 之 间 提供 相同 的 接口 集合 。 虽 然 客户 - 服务 器 模型 为 数据 和 其 他 资源 的 共享 提供 了 一 个 
直接 和 相对 简单 的 方法 ,但 客户 - 服务 器 模型 的 伸缩 性 比较 差 。 将 一 个 服务 放 在 单个 地 址 中 意味 着 集 
中 化 地 提供 服务 和 管理 ， 它 的 伸缩 性 不 会 超过 提供 服务 的 计算 机 的 能 力 和 该 计算 机 所 在 网 络 连接 的 
带宽 。 

针对 这 个 问题 ， 已 经 形成 了 一 系列 的 放置 策略 〈 见 下 面 关 于 “放置 ”的 讨论 ) ， 但 它们 都 没有 
解决 基本 问题 一 一 如 何 将 共享 资源 进行 更 广泛 的 分 布 ， 以 便 将 访问 资源 带 来 的 计算 和 通信 和 负载 分 散 
到 大 量 的 计算 机 和 网 络 链接 中 。 促 使 对 等 系统 发 展 的 主要 观点 是 一 个 服务 的 用 户 所 拥有 的 网 络 和 计 
算 资 源 也 能 被 投入 使 用 以 支持 那个 服务 。 这 产生 有 益 的 结果 : 可 用 于 运行 服务 的 资源 随 用 户 数 而 
增加 。 

今天 台式 计算 机 具有 的 硬件 容量 和 操作 系统 功能 已 经 超过 了 以 前 的 服务 器 ， 而 且 大 多 数 计算 机 配 
备 有 随时 可 用 的 宽带 网 络 连 接 。 对 等 体系 结构 的 目的 是 利用 大 量 参与 计算 机 的 资源 (数据 和 硬件 ) 来 
完成 某 个 给 定 的 任务 或 活动 。 对 等 应 用 和 对 等 系统 已 经 被 成 功 地 构造 出 来 ， 使 得 无 数 计算 机 能 访问 它 
们 共同 存储 和 管理 的 数据 及 其 他 资源 。 最 早 的 系统 之 一 是 共享 数字 音乐 文件 的 Napster 应 用 程序 。 虽 然 
它 不 是 一 个 纯粹 的 对 等 体系 结构 〈 而 且 由 于 其 他 非 体 系 结构 的 原因 而 变 得 声名 狼藉 ) ， 但 它 验 证 了 对 
等 系统 的 可 行 性 ， 并 使 体系 结构 模型 向 多 个 有 价值 的 方向 发 展 。 最 近 一 个 广泛 使 用 的 实例 是 BitTorrent 
文件 共享 系统 〈 关 于 它 的 深入 讨论 见 20.6.2 节 )。 

图 2-4a 说 明了 对 等 应 用 的 形式 。 应 用 由 大 量 运行 在 独立 计算 机 上 的 对 等 进程 组 成 ， 进 程 之 间 的 通 
信 模 式 完 全 依赖 于 对 应 用 的 需求 。 大 量 数 据 对 象 被 共享 ， 单 个 计算 机 只 保存 一 小 部 分 应 用 数据 库 ， 访 
问 对 象 的 存储 、 处 理 和 通信 和 负载 被 分 布 到 多 个 计算 机 和 网 络 链接 中 。 每 个 对 象 在 几 个 计算 机 中 被 复制 ， 
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以 便 以 后 分 散 负 载 ， 并 在 某 个 计算 机 渐 链 时 仍 能 正常 工作 〈 这 在 对 等 系统 针对 的 大 型 异 构 网 络 中 是 不 
可 避免 的 ) 。 在 众多 计算 机 上 放置 对 象 并 检索 ， 同 时 维护 这 些 对 象 的 副本 ， 这 种 应 用 需求 使 得 对 等 体系 
结构 本 质 上 比 客户 - 服务 器 体系 结构 要 复杂 得 多 。 

对 等 应 用 和 支持 对 等 应 用 的 中 间 件 的 开发 将 在 第 10 章 中 深入 介绍 。 

放置 ”最 后 要 考虑 的 问题 是 诸如 对 象 或 服务 这 样 的 实体 是 怎样 映射 到 底层 的 物理 分 布 式 基 础 设施 
上 的 ， 物 理 分 布 式 基 础 设施 由 大 量 的 机 器 组 成 ， 这 些 机 器 通过 一 个 任意 复杂 的 网 络 互联 。 从 决定 分 布 
式 系统 特性 的 角度 而 言 ， 放 置 是 关键 的 ， 这 些 特 性 大 多 数 与 性 能 相关 ， 也 包括 其 他 特性 如 可 靠 性 和 安 
全 性 。 

从 机 器 和 机 器 内 部 进程 的 角度 看 ， 在 哪里 放置 一 个 给 定 客户 或 服务 器 的 问题 是 需要 仔细 设计 的 。 
放置 需要 考虑 实体 间 的 通信 模式 、 给 定 机 器 的 可 靠 性 和 它们 当前 的 负载 、 不 同 机 器 之 间 的 通信 质量 等 。 
必须 用 有 说 服 力 的 应 用 知识 来 确定 放置 ， 有 些 通用 的 指导 方针 可 以 用 来 获得 一 个 优化 的 解决 方案 。 因 
此 ， 我 们 主要 关注 下 列 放置 策略 ,它们 能 显著 地 改变 一 个 给 定 设计 的 特征 〔 我 们 在 2. 3, 2 节 又 回 到 关 
于 物理 基础 设施 映射 的 关键 问题 ， 那 里 ， 我 们 主要 考察 层次 化 的 体系 结构 ) : 

© 将 服务 映射 到 多 个 服务 器 ; l 
© 缓存 ; 

e 移动 代码 ; 

。 移动 代理 。 

将 服务 映射 到 多 个 服务 器 ; 服务 可 实现 成 在 一 个 单独 主机 上 的 几 个 服务 器 进程 ， 在 必要 时 进行 交 
互 以 便 为 客户 进程 提供 服务 〈 参 见 图 2-4b) 。 服 务 器 可 以 将 服务 所 基于 的 对 象 集 分 区 ， 然 后 将 这 些 分 
区 分 布 到 各 个 服务 器 上 ; 或 者 服务 器 可 以 在 几 个 主机 上 维护 复制 的 对 象 集 。 这 两 种 选择 可 用 下 列 例子 
说 明 。 











a) l b) 


图 2-4 由 多 个 服务 器 提供 的 服务 


Web 就 是 一 个 常见 的 将 数据 分 区 的 例子 ， 其 中 的 每 个 Web 服务 器 管理 自己 的 资源 集 。 用 户 可 以 利 
用 浏览 器 访问 任 一 个 服务 器 上 的 资源 。 

一 个 基于 复制 数据 的 服务 是 Sun 网 络 信息 服务 (Network Information Service，NIS) 。 它 使 得 LAN 中 
的 计算 机 能 在 用 户 登 录 时 访问 到 相同 的 用 户 认证 数据 。 每 个 NIS 服务 器 有 它 自 己 的 口令 文件 副本 ， 该 
副本 记录 了 用 户 登 录 名 和 加 密 的 口令 清单 。 第 18 章 将 详细 讨论 复制 技术 。 

多 服务 器 体系 结构 中 紧 耦 合 程度 更 高 的 是 第 1 章 所 介绍 的 集群 。 一 个 集群 最 多 可 用 数 以 千 计 的 商 
用 处 理 主板 构成 ， 可 在 这 些 主板 上 对 服务 处 理 进 行 分 区 或 复制 。 

缓存 : 缓存 用 于 存储 最 近 使 用 的 数据 对 象 ， 这 些 被 存储 的 数据 对 象 比 对 象 本 身 更 靠近 一 个 客户 或 
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特定 的 一 组 客户 。 当 服务 器 接收 一 个 新 对 象 时 ， 就 将 它 存 人 缓存 ， 必 要 的 时 候 会 蔡 换 缓存 中 已 存在 的 
对 象 。 当 客户 进程 需要 一 个 对 象 时 ， 缓 存 服务 首先 检查 缓存 ， 如 果 缓 在 中 有 最 新 的 拷贝 可 用 就 提供 组 
存 中 的 对 象 ; 如 果 缓 存 没 有 可 用 的 对 象 ， 才 去 取 一 个 最 新 的 拷贝 。 每 个 客户 都 可 以 配置 缓存 或 者 将 组 
存放 置 在 由 几 个 客户 共享 的 代理 服务 器 上 。 

缓存 在 实际 工作 中 被 广泛 使 用 。Web 浏览 器 维护 一 个 缓存 ， 它 在 客户 本 地 的 文件 系统 中 存放 最 近 
访问 的 Web 页 面 和 其 他 Web 资源 ， 并 在 显示 前 用 一 个 特殊 的 HTTP 请 求 到 原来 的 服务 器 上 检查 被 缓存 
的 页 面 是 否 是 最 新 的 。Web 代理 服务 器 〈 见 图 2-5) 为 一 个 或 多 个 地 点 的 客户 机 提供 共享 的 存放 Web 
资源 的 缓存 。 代 理 服 务 器 的 目的 是 通过 减少 广域网 和 Web 服务 器 的 负载 ， 提 高 服务 的 可 用 性 和 性 能 。 
代理 服务 器 能 承担 其 他 角色 ， 例 如 它们 可 以 用 于 通过 防火 墙 访问 远程 Web 服务 器 。 





图 2-5 Web 代理 服务 器 


移动 代码 : 第 1 章 介绍 了 移动 代码 。applet 是 一 个 众所周知 的 并 被 广泛 使 用 的 移动 代码 例子 ， 即 运 
行 浏览 器 的 用 户 选择 了 一 个 到 applet 的 链接 ，applet 的 代码 存储 在 Web 服务 器 上 ， 将 applet 的 代码 下 载 
到 浏览 器 并 在 浏览 器 端 运行 ， 如 图 2-6 所 示 。 在 本 地 运行 下 载 的 代码 的 好 处 是 能 够 提供 良好 的 交互 响 


A (eX applet A 服务 器 人 
applet 代 码 > ee eer ee 


a) 客户 请 求 导致 applet 代 码 的 下 载 b》 客 户 与 applet 交 互 
图 2-6 Web applet 


访问 服务 意味 着 运行 能 调用 服务 所 提供 的 操作 代码 。 一 些 服 务 可 能 进行 了 标准 化 ， 所 以 能 用 一 个 
已 有 的 且 众 所 周知 的 应 用 对 其 进行 访问 一 一 Web 就 是 一 个 大 家 很 熟悉 的 例子 ， 但 有 些 Web 站 点 使 用 了 
在 标准 浏览 器 中 找 不 到 的 功能 ， 还 要 求 下 载 额外 的 代码 〈 例 如 ， 用 额外 的 代码 与 服务 器 通信 ) 。 考 虑 
一 个 应 用 ， 该 应 用 要 求 用 户 应 该 与 发 生 在 服务 器 信息 源 端 的 变化 保持 一 致 。 这 一 功能 不 能 通过 与 Web 
服务 器 的 正常 交互 获得 ， 因 为 那 种 交互 总 是 由 客户 发 起 。 解 决 方案 是 使 用 另外 一 种 被 称 为 推 模式 操作 
的 软件 ， 在 这 种 方式 下 由 服务 器 而 不 是 客户 发 起 交互 。 例 如 ， 股 票 经 纪 人 可 能 提供 一 个 定制 的 服务 来 
通知 顾客 股票 价格 的 变动 。 为 了 使 用 这 个 服务 ， 每 个 顾客 都 要 下 载 一 个 特殊 的 、 能 接收 来 自 经 纪 人 服 
务 器 的 更 新 的 applet， 该 applet 可 向 用 户 显 示 更 新 ， 还 可 能 自动 地 完成 买卖 操作 ， 这 些 操作 是 根据 顾客 
设置 的 、 存 储 在 顾客 本 地 计算 机 上 的 条 件 而 触发 的 。 

移动 代码 对 目的 计算 机 中 的 本 地 资源 而 言 是 一 个 潜在 的 安全 威胁 。 因 此 ， 浏 览 器 采用 11.1.1 节 讨 
论 的 方案 对 applet 访问 本 地 资源 进行 了 限制 。 

BARB: 移动 代理 是 一 个 运行 的 程序 〈 包 括 代码 和 数据 ) ， 它 从 一 台 计算 机 移动 到 网 络 上 的 另 
一 台 计 算 机 ， 代 表 某 人 完成 诸如 信息 搜集 之 类 的 任务 ， 最 后 返回 结果 。 一 个 移动 代理 可 能 多 次 调用 所 
访问 地 点 的 本 地 资源 一 一 例如 ， 访 问 一 个 数据 库 条 目 。 如 果 将 这 种 体系 结构 与 对 某 些 资源 进行 远程 调 
用 的 静态 客户 相 比 ， 那 么 后 者 可 能 会 传输 大 量 的 数据 ， 前 者 通过 用 本 地 调用 替换 远程 调用 而 降低 了 通 
信 开 销 和 时 间 。 
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移动 代理 可 用 于 安装 和 维护 一 个 组 织 内 部 的 计算 机 软件 或 通过 访问 每 个 销售 商 的 站 点 并 执行 一 系 
列 数据 库 操作 ， 来 比较 多 个 销售 商 的 产品 价格 。 一 个 类 似 想法 的 早期 例子 是 在 Xerox PARC 开发 的 所 请 
蠕虫 程序 [Shoch and Hupp 1982] ， 该 程序 利用 空闲 的 计算 机 完成 密集 型 计算 。 

移动 代理 〈 和 移动 代码 一 样 ) 对 所 访问 的 计算 机 上 的 资源 而 言 是 一 个 潜在 的 安全 威胁 。 接 收 一 个 
移动 代理 的 环境 应 该 根据 代理 所 代表 的 用 户 的 身份 决定 允许 使 用 哪些 本 地 资源 一 一 它们 的 身份 必须 以 
安全 的 方式 被 包含 在 移动 代理 的 代码 和 数据 中 。 另 外 ， 移 动 代理 自身 是 脆弱 的 一 一 如 果 它 们 访问 所 需 
信息 的 要 求 被 拒绝 ， 那 么 它们 可 能 完 不 成 任务 。 由 移动 代理 完成 的 任务 可 以 通过 其 他 手段 完成 。 例 如 ， 
需要 经 由 互联 网 访问 Web 服务 器 上 资源 的 Web 抓 取 程 序 可 以 通过 远程 调用 服务 器 进程 而 运行 得 相当 成 
功 。 基 于 上 述 理由 ， 移 动 代理 的 适用 性 是 有 限 的 。 


2.3.2 体系 结构 模式 


体系 结构 模式 构建 在 上 述 讨 论 过 的 相对 原始 的 体系 结构 元 素 之 上 ， 提 供 组 合 的 、 重 复出 现 的 结构 ， 
这 些 结构 在 给 定 的 环境 中 能 运行 良好 。 它 们 未 必 是 完整 的 解决 方案 ， 但 当 与 其 他 模式 组 合 时 ， 它 们 会 
更 好 地 引导 设计 者 给 出 一 个 给 定 问题 域 的 解决 方案 。 

这 是 一 个 大 的 主题 ,已 经 有 了 许多 用 于 分 布 式 系统 的 体系 结构 模式 。 本 节 中 ， 我 们 给 出 分 布 式 系 
统 中 几 个 关键 的 体系 结构 模型 ， 包 括 分 层 体系 结构 (layering architecture) 、 层 次 化 体系 结构 (tiered ar- 
chitecture) 和 瘦 客 户 相 关 的 概念 (包括 虚拟 网 络 计算 的 特定 机 制 )。 我 们 也 把 Web 服务 当做 一 个 体系 
结构 模式 进行 了 考察 ， 给 出 了 其 他 可 以 应 用 在 分 布 式 系统 中 的 模式 。 

分 层 ” 分 层 的 概念 是 一 个 熟悉 的 概念 ， 与 抽象 紧密 相关 。 在 分 层 方法 中 ， 一 个 复杂 的 系统 被 分 成 
若干 层 ， 每 层 利用 下 层 提 供 的 服务 。 因 此 ， 一 个 给 定 的 层 提 供 一 个 软件 抽象 ， 更 高 的 层 不 清楚 实现 细 
节 ， 或 不 清楚 在 它 下 面 的 其 他 层 。 

就 分 布 式 系统 而 言 ， 这 等 同 于 把 服务 垂直 组 织 成 服务 层 。 一 个 分 布 式 服务 可 由 一 个 或 多 个 服务 器 
进程 提供 ， 这 些 进 程 相互 交互 ， 并 与 客户 进程 交互 ， 维 护 服务 中 的 资源 在 系统 范围 内 的 一 致 视图 。 例 
如 ， 在 互联 网 上 基于 网 络 时 间 协 议 (Network Time Protocol, 





NTP) 可 实现 一 个 网 络 时 间 服 务 ， 其 中 ， 服 务 器 进程 运行 应 用 、 服 务 
在 互联 网 的 主机 上 ， 给 任 一 发 出 请 求 的 客户 提供 当前 的 时 
间 ， 作 为 与 服务 器 交互 的 结果 ， 客 户 调整 它们 的 当前 时 间 。 中 间 件 
给 定 分 布 式 系统 的 复杂 性 ， 这 些 服务 组 织 成 若干 层 经 常 是 
有 帮助 的 。 图 2-7 给 出 了 一 个 分 层 体系 结构 的 常规 视图 ， 振作 系统 a 
并 在 第 3 ~6 章 详细 叙述 这 个 视图 的 细节 。 一 一 一 一 
图 2-7 引入 了 重要 的 术语 -一 平台 和 中 间 件 ， 具 体 定 
义 如 下 ; 图 2-7 ”分布 式 系统 中 软件 和 硬件 服务 层 


© 一 个 服务 于 分 布 式 系统 和 应 用 的 平台 由 最 底层 的 硬件 和 软件 层 组 成 。 这 些 底层 为 其 上 层 提供 服 
务 ， 它 们 在 每 个 计算 机 中 都 是 独立 实现 的 ， 提 供 系统 的 编程 接口 ， 方 便 进 程 之 间 的 通信 和 协 
调 。 主 要 的 例子 有 Intel x86/Windows, Intel x86/Solaris Intel x86/Mac OS X, Intel x86/Linux 和 
ARM/Symbian, 
1.5.1 节 把 中 间 件 定义 成 一 个 软件 层 ， 其 目的 是 屏蔽 异 构 性 ， 给 应 用 程序 员 提 供 方便 的 编程 模 
型 。 中 间 件 表示 成 一 组 计算 机 上 的 进程 或 对 象 ， 这 些 进程 或 对 象 相互 交互 ， 实 现 分 布 式 应 用 的 
通信 和 资源 共享 支持 。 中 间 件 提供 有 用 的 构造 块 ， 构 造 在 分 布 式 系统 中 一 起 工作 的 软件 组 件 。 
特别 的 ， 它 通过 对 抽象 的 支持 ， 如 远程 方法 调用 、 进 程 组 之 间 的 通信 、 事 件 的 通知 、 共 享 数据 
对 象 在 多 个 协作 的 计算 机 上 的 分 布 、 放 置 和 检索 、 共 享 数 据 对 象 的 复制 以 及 多 媒体 数据 的 实时 
传送 ， 提 升 应 用 程序 通信 活动 的 层次 。 我 们 将 在 下 面 的 2. 3. 3 节 讲 述 这 个 重要 的 话题 。 
层次 化 体系 结构 ”层次 化 体系 结构 与 分 层 体系 结构 是 互补 的 。 分 层 将 服务 垂直 组 织 成 抽象 层 ， 而 
层次 化 是 一 项 组 织 给 定 层 功能 的 技术 ， 它 把 这 个 功能 放 在 合适 的 服务 器 上 ， 或 者 作为 第 二 选择 放 在 物 
理 结 点 上 。 这 个 技术 与 图 2-7 中 所 示 的 应 用 和 服务 的 组 织 最 相关 ， 但 它 也 可 以 应 用 到 一 个 分 布 式 系统 
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体系 结构 的 所 有 层 。 

我 们 先 查 看 两 层 和 三 层 体系 结构 概念 。 为 了 说 明 这 些 概念 ， 考 虑 如 下 对 一 个 给 定 应 用 的 功能 
分 解 : 

。 表示 逻辑 ， 涉 及 处 理 用 户 交互 和 修改 呈现 给 用 户 的 应 用 视图 ; 

。 应 用 逻辑 ， 涉 及 与 应 用 相关 的 〈 也 称 为 业务 逻辑 ， 虽 然 这 个 概念 不 仅仅 限于 业务 应 用 ) 详细 

的 应 用 特定 处 理 ; 

。 数据 逻辑 ， 涉 及 应 用 的 持久 存储 ， 通 常 在 一 个 数据 库 管理 系统 中 。 

现在 考虑 用 客户 - 服务 器 技术 实现 这 样 一 个 应 用 。 图 2-8a 和 图 2-8b 分 别 给 出 了 相关 的 两 层 和 三 层 
体系 结构 解决 方案 ， 以 便于 比较 。 


服务 器 





一 一 人 应 用 和 数据 管理 ) 













-一 (应 用 和 数据 管理 





(控制 和 数据 操纵 “一 





D 个 人 计算 机 或 移动 设备 
应 用 服务 器 





数据 库 服务 器 














和 控制 | Ti 








-E ”第 = 层 O 第 三 层 
b 个 人 计算 机 或 移动 设备 
图 2-8 两 层 和 三 层 体系 结构 


在 两 层 解决 方案 中 ， 上 面 提 及 的 三 个 方面 必须 被 分 到 两 个 进程 (客户 和 服务 器 ) 中 。 通 常 通过 分 
隔 应 用 逻辑 来 完成 这 个 划分 ， 把 一 些 应 用 逻辑 放 在 客户 端 ， 剩 下 的 放 在 服务 器 端 〈 虽 然 其 他 解决 方案 
也 是 可 以 的 ) 。 这 个 模式 的 好 处 是 具有 交互 的 低 延 迟 ， 仅 有 调用 操作 的 消息 交换 ， 不 足 是 将 应 用 逻辑 分 
离 到 不 同 的 进程 ， 带 来 的 后 果 是 一 部 分 逻辑 不 能 被 另 一 部 分 直接 调用 。 

在 三 层 解 决 方案 中 ， 有 从 逻辑 元 素 到 物理 服务 器 的 一 对 一 映射 ， 因 此 ， 例 如 ， 应 用 逮 辑 放 在 一 个 
地 方 ， 能 提高 软件 的 可 维护 性 。 每 一 层 也 都 有 定义 明确 的 角色 ， 例 如 ， 第 三 层 仅 仅 是 一 个 提供 〈 可 能 
是 标准 的 ) 关系 服务 接口 的 数据 库 。 第 一 层 也 可 以 是 一 个 简单 的 用 户 界面 ， 提 供 对 瘦 客 户 的 内 在 支持 
( 见 下 面 的 讨论 ) 。 缺 点 是 增加 了 管理 三 个 服务 器 的 复杂 性 ， 也 增加 了 与 每 个 操作 相关 的 网 络 流量 和 
延迟 。 

注意 这 个 方案 可 以 推广 到 nn 层 ( 或 多 层 ) 的 解决 方案 ,其 中 一 个 给 定 的 应 用 领域 划分 为 n 个 逻辑 


31 


32 


52 
54 


第 2 章 系统 模型 


元 素 ， 每 个 逻辑 元 素 映 射 到 一 个 给 定 的 服务 器 元 素 。 以 维基 百科 基于 Web 的 可 供 公 众 编 辑 的 百科 全 书 
为 例 ， 它 采用 了 多 层次 体系 结构 来 处 理 大 量 的 Web 请 求 〈 每 秒 请 求 高 达 60 000 页 ) 。 

AJAX 的 作用 ; 在 1.6 节 中 ， 我 们 介绍 了 AJAX (Asynchronous Javascript And XML) 是 Web 所 使 用 
的 标准 客户 - 服务 器 交互 方式 的 扩展 。AJAX 满足 了 Javascript 前 端 程序 (运行 在 Web 浏览 器 中 ) 和 基 
于 服务 器 的 后 端 程序 〈 拥 有 描述 应 用 状态 的 数据 ) 之 间 的 细 粒 度 通 信 的 需要 。 概 括 而 言 ， 在 标准 的 
Web 交互 方式 中 ， 浏 览 器 发 送 HTTP 请 求 给 服务 器 ， 请 求 给 定 URL 的 页 面 、 图 像 或 其 他 资源 。 服 务 器 
发 送 整个 页 面 作为 应 答 ， 这 个 页 面 或 者 从 服务 器 上 的 一 个 文件 中 读 取 ， 或 者 由 一 个 程序 生成 ， 取 决 于 
URL 中 可 识别 的 资源 类 型 。 当 客户 收 到 内 容 时 ,浏览 器 根据 其 MIME XA (text/html, image/jpg 等 ) 
相关 的 显示 方式 呈现 它 。 明 然 Web 页 面 由 不 同类 型 的 内 容 项 组 成 ， 但 是 整个 页 面 以 它 在 hm 页 面 定 义 
中 指定 的 方式 由 浏览 器 组 合并 呈现 。 

这 种 标准 的 交互 方式 在 几 个 重要 的 方面 约束 了 Web 应 用 的 开发 : 

© 一 旦 浏览 器 发 送 了 一 个 请 求 新 Web 页 面 的 http 请 求 ， 用 户 不 能 与 该 页 面 交 互 ， 直 到 新 的 html 

内 容 被 浏览 器 收 到 并 呈现 。 这 个 时 间 间 隔 是 不 确定 的 ， 因 为 它 受 限于 网 络 和 服务 器 延迟 。 
。 为 了 用 来 自 服务 器 的 额外 数据 修改 当前 页 面 的 一 小 部 分 ， 也 要 请 求 和 显示 整个 新 的 页 面 。 这 导 
致 了 对 用 户 应 答 的 延迟 、 客 户 和 服务 器 两 端的 额外 处 理 以 及 元 余 的 网 络 流量 。 

。 客户 显示 的 页 面 内 容 不 能 被 更 新 ， 从 而 不 能 响应 服务 器 端 拥 有 的 应 用 数据 的 变化 。 

Javascript 是 一 个 路 平台 、 跨 浏览 器 的 编程 语言 ， 它 能 下 载 到 浏览 器 中 并 执行 ， 它 的 引入 是 去 除 这 
些 约束 的 第 一 步 。Javascript 是 一 个 通用 的 语 语言 ， 它 使 得 用 户 接口 和 应 用 水 辑 能 在 浏览 器 窗口 中 被 编程 
和 执行 。 

AJAX 是 使 得 开发 和 部 署 交互 型 Web 应 用 成 为 可 能 的 第 二 步 ， 它 使 得 Javascript 前 端 程序 能 直接 从 
服务 器 程序 中 获得 新 的 数据 。 任 何 数据 项 都 能 被 请 求 ， 当 前 页 有 选择 地 更 新 来 显示 新 的 值 。 甚 至 ， 前 
端 能 以 对 应 用 有 用 的 任何 方式 响应 新 的 数据 。 

许多 Web 应 用 允许 用 户 访问 和 更 新 大 量 共享 的 数据 集 ， 这 些 数 据 可 能 会 改变 以 响应 其 他 客户 的 输 
入 或 服务 器 收 到 的 数据 输入 。 它 们 要 求 一 个 及 时 的 前 端 组 件 〈 运 行 在 每 个 客户 浏览 器 中 ) 来 完成 用 户 
接口 动作 (如 菜单 选择 ) ， 也 请 求 访问 一 个 必须 放 在 服务 器 上 供 共 享 的 数据 集 。 这 样 的 数据 集 通常 太 
大 并 且 是 动态 的 ， 所 以 不 允许 使 用 基于 在 用 户 会 话 〈 用 于 客户 操纵 ) 开始 时 下 载 整个 应 用 状态 副本 给 
客户 并 供 其 操作 的 体系 结构 。 

AJAX 是 支持 构建 这 样 的 应 用 的 “胶水 ”， [一 TD 

、 new Ajax. Request( 'scores.php?game=Arsenal: Liverpool’, 
它 提供 一 套 通信 机 制 ， 使 得 运行 在 一 个 浏览 器 fonSuccess: updateScore}); 
中 的 前 端 组 件 能 发 送 请 求 ， 并 从 运行 在 服务 器 
上 的 后 端 组 件 接收 结果 。 客 户 通 过 Javascript function updateScore(request) { 
XmlHttpRequest 对 象 发 送 请 求 ， 该 对 象 管理 与 (reguest 参 数 包含 了 AJAX 请 求 的 状态 ， 包括 返回 的 
一 个 服务 器 进程 的 HTTP 交互 ( 见 1.6 节 )。 因 SA, BCPA TAANE BOE) 
为 XmlHttpRequest 有 一 个 复杂 的 API, HR API | 
有 些 依赖 浏览 器 ， 所 以 ， 通常 通 过 众多 可 用 于 支 | 4 
持 Web 应 用 开发 的 Javaseript 库 中 的 一 个 库 访 问 
它 。 图 2-9 展示 了 ATAX 在 Prototype. js Javascript 
库 中 的 使 用 [ www. prototypejs orgj]。 

这 个 例子 是 一 个 We 应 用 的 片段 ， 该 应 用 显示 足球 比赛 最 新 积分 的 页 面 。 用 户 单 击 页 面 的 相关 
行 ， 可 以 请 求 获得 单个 比赛 的 分 数 更 新 ， 应 着 执行 示例 程序 的 第 一 行 。Ajax. Request 对 象 发 送 一 
个 HITP 请 求 给 scores. php 程序 ， 该 程序 与 Web 页 面 位 于 相同 的 服务 器 上 。Ajax. Request 对 象 接 着 返回 
控制 ， 允 许 浏览 器 继续 应 答 相同 窗口 或 其 他 窗口 中 其 他 用 户 的 动作 。 当 scores. php 程序 已 经 获得 了 最 
新 的 比分 时 ， 它 在 一 个 HTTP 应 答 中 返回 该 比分 ， 因 为 它 是 一 个 onSuceess 动作 ， 所 以 ， 它 分 析 结 果 并 
把 比分 插入 到 当前 页 面 的 相关 位 置 。 页 面 的 其 余部 分 不 受 影响 ， 不 被 重 载 人 。 

这 说 明了 在 第 一 层 组 件 和 第 二 层 组 件 之 间 使 用 的 通信 类 型 。 虽 然 Ajax Request (和 下 层 的 XmlHt- 














图 2-9 AJAX 举例 : 更 新 足球 比分 
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tpRequest 对 象 ) 提供 同步 和 异步 通信 ， 但 总 是 使 用 异步 版 本 ， 因 为 用 户 界面 对 延迟 的 服务 器 应 答 是 不 
可 接受 的 。 

这 个 简单 的 例子 说 明了 在 两 层 应 用 中 AJAX 的 使 用 。 在 三 层 应 用 中 ， 服 务 器 组 件 (在 我 们 的 例子 
中 是 scores. php) 将 发 送 一 个 请 求 给 数据 管理 器 组 件 (通常 是 发 给 数据 库 服 务 器 的 一 个 SQL 查询 ) 用 
于 请 求 数据 。 这 个 请 求 是 异步 的 ， 因 为 没有 理由 直到 请 求 被 满足 后 才 返回 控制 给 服务 器 。 

AJAX 机 制 组 成 了 一 项 有 效 的 技术 ， 用 于 在 具有 不 确定 延迟 的 互联 网 环境 下 构造 及 时 的 Web 应 用 ， 
它 已 经 得 到 了 非常 广泛 的 使 用 。Google 地 图 应 用 [ www. google.com H] 是 一 个 突出 的 例子 。 地 图 作为 
一 个 连续 的 256 x256 像素 图 像 ( 称 为 图 片 (tile)) 数组 显示 。 当 地 图 被 移动 时 ， 浏 览 器 中 的 Javascript 
代码 重 定位 可 见 的 图 片 ， 需 要 填 入 可 见 区域 的 额外 的 图 片 ， 可 以 通过 AJAX 调用 到 Google 服务 器 去 获 
取 。 图 片 一 经 收 到 就 会 显示 出 来 ， 但 浏览 器 在 等 待 的 时 候 可 以 继续 应 答 用 户 的 交互 。 

BEA ”分 布 式 计算 的 趋势 是 将 复杂 性 从 最 终 用 户 设备 移 向 互联 网 服务 。 这 点 在 向 云 计算 ( 见 
第 1 章 ) 发 展 的 趋势 中 最 明显 ， 在 上 面 讨论 的 层次 化 体系 结构 中 也 能 看 到 。 这 个 趋势 导致 了 对 瘦 客 户 
概念 的 兴趣 ， 它 使 得 能 以 很 少 的 对 客户 设备 的 假设 或 需求 ， 获 得 对 复杂 网 络 化 服务 的 访问 ， 这 些 服务 


可 以 通过 云 解决 方案 提供 。 更 具体 来 说 ， 术 语 瘦 客户 计算 服务 器 
指 的 是 一 个 软件 层 ， 在 执行 一 个 应 用 程序 或 访问 远程 ”网 络 化 服务 

计算 机 上 的 服务 时 ， 由 该 软件 层 提供 一 个 基于 窗口 的 a 
本 地 用 户 界面 。 例 如 ， 图 2-10 给 出 了 一 个 瘦 客 户 ， 它 FEP m 


在 访问 互联 网 上 的 一 台 计 算 服 务 器 。 这 种 方法 的 好 处 
是 有 可 能 通过 大 量 的 网 络 化 服务 和 潜在 能 力 极 大 地 增 y 
加 简单 的 本 地 设备 〔 例 如 ， 智 能 电话 和 其 他 资源 有 限 BREA TE 

的 设备 ) 。 瘦 客户 体系 结构 的 主要 缺点 是 : 在 交互 频繁 的 图 形 活 动 〈( 如 CAD 和 图 像 处 理 ) 中 ， 因 为 网 
络 和 操作 系统 的 延迟 ， 用 户 感受 到 的 延迟 会 因为 在 瘦 客 户 和 应 用 进程 之 间 传 输 图 像 和 向 量 信息 而 增 大 
到 不 可 接受 的 程度 。 

这 个 概念 导致 虚拟 网 络 计算 (Virtual Network Computing, VNC) 的 出 现 。 该 项 技术 首先 由 Olivetti 
和 Oracle 研究 实验 室 的 研究 者 引 人 [Richardson et al. 1998 ] 。 初 始 的 概念 已 经 演化 成 实现 ， 例 如 ，Re- 
alVNC [www. realvnc. com] 提供 了 一 个 软件 解决 方案 ，Adventiq [ www. adventiq. com] 提供 了 一 个 基于 
硬件 的 解决 方案 ， 该 方案 支持 在 下 上 传送 键盘 、 视 频 和 鼠标 事件 (KVM- over-IP)。 其 他 VNC 实现 包 
括 Apple Remote Desktop、TightVNC 和 Aqua Connect。 

VNC 在 概念 上 是 简单 的 ， 即 为 远程 访问 提供 图 形 用 户 界面 。 在 这 个 解决 方案 中 ，VNC 客户 ( 观 
众 ) 通过 VNC 协议 与 VNC 服务 器 交互 。 从 图 形 支持 角度 看 ,协议 在 原 语 层次 上 操作 ， 基 于 帧 缓冲 区 ， 
以 以 下 操作 为 特色 : 在 屏幕 上 的 给 定位 置 放置 矩形 像素 数据 (一 些 解 决 方案 如 Citrix 的 XenApp 从 窗口 
操作 方面 来 看 在 较 高 层次 操作 [www. citrix. com]) 。 这 种 低层 方法 确保 协议 能 工作 在 任何 操作 系统 或 
应 用 中 。 虽 然 这 很 直接 ， 但 它 隐 含 着 用 户 能 用 不 同 设备 从 任何 地 方 访问 他 们 的 计算 机 设施 ， 这 代表 了 
在 移动 计算 方面 迈 出 的 重要 的 一 步 。 

虚拟 网 络 计算 已 经 取代 了 网 络 计算 机 ， 后 者 是 以 前 的 瘦 客 户 解 决 方案 的 实现 方法 ， 它 通过 简单 、 
廉价 、 完 全 依赖 网 络 化 服务 的 硬件 设备 ， 从 远程 文件 服务 器 下 载 它们 的 操作 系统 和 用 户 所 需 的 应 用 软 
件 。 因 为 所 有 的 应 用 数据 和 代码 由 一 个 文件 服务 器 存储 ， 所 以 ， 用 户 可 以 从 一 个 网 络 计算 机 迁移 到 另 
一 个 。 事 实 上 ， 虚 拟 网 络 计算 被 证 明 是 一 个 更 灵活 的 解决 方案 ， 现 在 主 宁 着 市 场 。 

其 他 经 常 出 现 的 模式 ”如 上 所 述 ， 现 在 已 有 大 量 的 体系 结构 模式 ， 且 它们 已 被 文档 化 。 这 里 给 出 
一 些 关 键 的 例子 。 

© RE (poy) 模式 是 分 布 式 系 统 中 经 常 出 现 的 模式 ， 其 主要 用 于 支持 远程 过 程 调用 或 远程 方 

法 调用 的 位 置 透明 性 。 用 这 种 方法 ， 一 个 代理 在 本 地 地 址 空间 中 被 创建 ， 用 于 代表 远程 对 象 。 
这 个 代理 提供 与 远程 对 象 一 样 的 接口 ， 程 序 员 调 用 这 个 代理 对 象 ， 因 此 无 须 了 解 交互 的 分 布 式 
特性 。 在 RPC 和 RM 中 ， 代 理 支 持 位 置 透明 性 的 作用 将 在 第 5 章 做 进一步 的 讨论 。 注 意 代 理 
也 被 用 于 封装 其 他 的 功能 〈 诸 如 复制 或 缓存 的 放置 策略 等 ) 。 
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© Web 服务 中 的 业务 代理 (brokerage) 的 使 用 能 被 看 成 是 一 个 在 可 能 很 复杂 的 分 布 式 基 础 设施 中 
支持 互 操 作 性 的 体系 结构 模式 。 特 别 地 ， 这 个 模式 是 由 服务 提供 商 、 服 务 请 求 者 和 服务 代理 
(提供 与 请 求 的 服务 一 致 的 服务 ) 三 部 分 组 成 ， 如 图 2-11 所 示 。 这 个 业务 代理 模式 在 分 布 式 系 
统 的 多 个 领域 被 多 次 应 用 ， 例 如 Java RM 中 的 注册 服务 、CORBA 中 的 名 字 服 务 (分 别 参 见 第 
5 章 和 第 8 章 的 讨论 ) 。 

© KA (reflection) 模式 在 分 布 式 系统 
中 作为 支持 内 省 (系统 的 动态 发 现 的 A 服务 代 理 
特性 ) 和 从 中 调停 (动态 修改 结构 或 
行为 的 能 力 ) 的 手段 而 被 持续 地 使 用 。 
例如 ，jJava 的 内 省 能 力 被 用 于 RMI 的 
实现 中 ， 提 供 通用 的 分 发 (参见 .… 
5.4.2 节 的 讨论 ) 。 在 一 个 反射 系统 
中 ,标准 的 服务 接口 在 基础 层 可 供 使 l 
用 ， 但 元 层 接口 也 可 以 提供 对 涉及 服 图 2-11 Web 服务 体系 结构 模式 
务实 现 的 组 件 及 组 件 参 数 的 访问 。 许 
多 技术 在 元 层 可 用 ， 包 括 截获 到 达 的 消息 或 调用 、 动 态 发 现 由 给 定 对 象 提供 的 接口 、 发 现 和 适 
应 系统 底层 体系 结构 的 能 力 。 反 射 被 应 用 于 分 布 式 系 统 中 的 多 个 领域 ， 特 别 是 反射 中 间 件 领 
域 ， 例 如 ， 可 以 用 于 支持 更 多 的 可 配置 及 重 配置 中 间 件 体系 结构 [Kon et al. 2001), 

与 分 布 式 系统 相关 的 体系 结构 模式 更 多 的 例子 可 以 在 Bushman 等 人 [2007] 的 著作 中 找到 。 


2.3.3 相关 的 中 间 件 解决 方案 


第 1 章 引 和 人 了 中 间 件 ， 在 2.3.2 节 讨 论 分 层 体 系 结构 时 又 重 漫 了 中 间 件 。 中 间 件 的 任务 是 为 分 布 
式 系统 的 开发 提供 一 个 高 层 的 编程 抽象 ， 并 且 通 过 分 层 ， 对 底层 基础 设施 中 的 异 构 性 提供 抽象 ， 从 而 
提升 互 操 作 性 和 可 移植 人 性。 中 间 件 解决 方案 是 基于 2. 3.1 节 引 人 的 体系 结构 模型 ， 也 支持 更 复杂 的 体 - 
系 结构 模式 。 本 节 我 们 简要 回顾 一 下 现在 存在 的 中 间 件 类 别 ， 为 在 本 书 的 其 他 部 分 进一步 研究 这 些 解 
决 方案 做 好 准备 。 

中 间 件 的 类 别 ”远程 过 程 调用 包 ，( 如 Sun RPC， 第 5 章 ) 和 组 通信 (如 ISIS, 第 6 章 和 第 18 章 ) 
属于 最 早 的 中 间 件 实例 。 从 那 以 后 ， 出 现 了 大 量 不 同 风 格 的 中 间 件 ， 大 部 分 都 基于 上 面 介绍 的 体系 结 
构 模 型 。 我 们 在 图 2-12 中 给 出 了 中 间 件 平台 的 分 类 ， 其 中 交叉 引用 了 其 他 章 ， 那 些 章 更 详细 地 讨论 了 
不 同 种 类 的 中 间 件 。 需 要 强调 的 是 分 类 并 不 精确 ， 现 代 中 间 件 平台 试图 提供 混合 的 解决 方案 。 例 如 ， 
许多 分 布 式 对 象 平台 提供 分 布 式 事件 服务 ， 来 补充 传统 的 对 远程 方法 调用 的 支持 。 类 似 地 ， 出 于 互 操 
作 性 的 原因 ， 许 多 基于 组 件 的 平台 (和 平台 的 其 他 分 类 ) 也 支持 Web 服务 和 标准 。 从 中 间 件 标准 和 今 
天 可 用 的 技术 的 角度 来 看 ， 还 应 该 强调 这 个 分 类 并 不 完整 ， 其 目的 在 于 给 出 中 间 件 的 主要 类 别 。 其 他 
(未 给 出 的 ) 解决 方案 是 比较 特定 的 ， 例 如 ， 特 定 于 提供 某 一 通信 范 型 ， 如 消息 传递 、 远 程 过 程 调用 、 
分 布 式 共享 内 存 、 元 组 空间 或 组 通信 。 

图 2-12 中 的 中 间 件 的 顶层 分 类 是 根据 通信 实体 和 相关 通信 范 型 而 确定 的 ， 遵 循 五 个 主要 的 体系 结 
构 模 型 : 分 布 式 对 象 、 分 布 式 组 件 、 发 布 -订阅 系统 、 消 息 队 列 和 Web 服务 。 对 等 系统 是 这 些 类 别 的 
补充 ， 基 于 2.3.1 节 讨 论 的 协作 方法 ， 对 等 系统 是 中 间 件 一 个 相当 独立 的 分 支 。 应 用 服务 器 ， 显 示 为 
分 布 式 组 件 的 子 类 ， 也 提供 对 三 层 体系 结构 的 直接 支持 。 特 别 地 ， 应 用 服务 器 提供 了 结构 以 支持 应 用 
逻辑 和 数据 存储 的 分 离 ， 以 及 对 其 他 特性 〈 如 安全 性 和 可 靠 性 ) 的 支持 。 详 细 细节 将 延 后 到 第 8 章 
讨论 。 

除了 编程 抽象 之 外 ， 中 间 件 也 能 提供 分 布 式 系统 的 基础 设施 服务 ， 供 应 用 程序 或 其 他 服务 使 用 。 
这 些 基 础 设施 服务 与 中 间 件 提供 的 分 布 式 编程 模式 是 紧密 绑 定 的 。 例 如 ，CORBA (388 章 ) 提供 给 应 
用 一 系列 的 CORBA 服务 ， 包 括 对 程序 安全 和 可 人 靠 的 支持 。 如 上 所 述 和 在 第 8 章 中 的 进一步 讨论 ， 应 用 
服务 器 也 提供 对 这 些 服务 的 内 在 支持 。 
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主 类 子 类 系统 例子 
分 布 式 对 象 (第 5、8 章 ) 标准 RM- ODP | 
平台 CORBA 
平台 Java RMI 
分 布 式 组 件 (第 8 章 ) RERA Fractal 
轻 量 级 组 件 OpenCOM 
应 用 服务 器 SUN EJB 
应 用 服务 器 CORBA 组 件 模型 
应 用 服务 器 JBoss 
发 布 - 订 阅 系统 (第 6 章 ) CORBA 事件 服务 
Scribe 
JMS 
消息 队列 〈 第 6 章 ) Websphere MQ 
JMS 
Web IRS (389 章 ) Web 服务 Apache Axis 
网 格 服务 Globus Toolkit 
对 等 〈 第 10 章 ) 路 由 覆盖 网 了 Bastry 
路 由 覆盖 网 Tapestry 
应 用 特定 的 Squirrel 
应 用 特定 的 OceanStore 
应 用 特定 的 Ivy 
应 用 特定 的 Gnutella | 





图 2-12 ”中间 件 分 类 


中 间 件 的 限制 ”许多 分 布 式 应 用 完全 依赖 中 间 件 提供 的 服务 来 支持 应 用 的 通信 和 数据 共享 需求 。 
例如 ， 一 个 适合 客户 - 服务 器 模型 的 应 用 ， 如 一 个 名 字 和 地 址 的 数据 库 ， 可 以 依赖 只 提供 远程 方法 调 
用 的 中 间 件 。 

通过 依靠 中 间 件 支持 的 开发 ， 能 大 大 简化 分 布 式 系统 的 编程 ， 但 系统 可 依赖 性 的 一 些 方面 要 求 应 
用 层面 的 支持 。 

考虑 从 发 送 者 的 邮件 主机 传递 大 量 的 电子 邮件 消息 到 接收 者 的 邮件 主机 。 乍 一 看 ， 这 是 一 个 TCP 
数据 传输 协议 的 简单 应 用 《网 第 3 章 的 相关 讨论 ) 。 但 考虑 这 样 的 问题 : 用 户 试 图 在 一 个 可 能 不 可 靠 的 
网 络 上 传递 非常 大 的 文件 。TCP 提供 一 些 错误 检测 和 更 正 ， 但 它 不 能 从 严重 的 网 络 中 断 中 恢复 。 因 此 ， 
骸 件 传递 服务 增加 了 另 一 层次 的 容错 ， 维 护 一 个 进展 记录 ， 如 果 原 来 的 TCP 连接 断 开 了 ， 用 一 个 新 的 
TCP 连接 继续 传递 。 

Saltzer, Reed 和 Clarke 的 一 篇 经 典 论文 [Saltzer et al. 1984] 对 分 布 式 系统 的 设计 给 出 了 类 似 的 、 
有 价值 的 观点 ， 他 们 称 之 为 “ 端 到 端 争 论 "。 可 将 他 们 的 陈述 表述 为 : 

一 些 与 通信 相关 的 功能 ， 可 以 只 依靠 通信 系统 终点 (end point) 的 应 用 的 知识 和 帮助 ， 
即 可 完整 、 可 靠 地 实现 。 因 此 ， 将 这 些 功能 作为 通信 系统 的 特征 不 总 是 明智 的 (虽然 由 通信 
系统 提供 一 个 不 完全 版 本 的 功能 有 时 对 性 能 提高 是 有 用 的 ) 。 

可 以 看 出 他 们 的 论点 与 通过 引入 适当 的 中 间 件 层 将 所 有 通信 活动 从 应 用 编程 中 抽象 出 来 的 观点 是 
相反 的 。 

争论 的 关键 是 分 布 式 程序 正确 的 行为 在 很 多 层面 上 依赖 检查 、 错 误 校 正 机 制 和 安全 手段 ， 其 中 有 
些 要 求 访问 应 用 的 地 址 空间 的 数据 。 任 何 企图 在 通信 系统 中 单独 完成 的 检查 将 只 能 保证 部 分 正确 性 。 
因此 ， 可 能 在 应 用 程序 中 重复 同样 的 任务 ， 降 低 了 编程 效率 ， 更 重要 的 是 增加 了 不 必要 的 复杂 性 并 要 
执行 元 余 的 计算 。 

这 里 不 进一步 介绍 他 们 的 争论 细节 ， 强 烈 推 荐 读者 阅读 前 面 提 到 的 那 篇 论文 一 一 那里 有 许多 说 明 
的 实例 。 原 文 作者 之 一 最 近 指 出 : 争论 给 互联 网 设计 带 来 的 实质 性 好 处 最 近 面 临 着 为 满足 当前 应 用 需 
求 而 转向 网 络 服务 专门 化 的 危险 [ www. reed. com] 。 

这 个 争论 给 中 间 件 设计 者 带 来 一 个 实际 的 两 难 困境 ， 而 且 给 定 当代 分 布 式 系 统 中 种 类 繁多 的 应 用 
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(和 相关 的 环境 条 件 ) ( 见 第 1 章 ) ， 这 些 困 难 与 日 俱 增 。 本 质 上 ， 底 层 中 间 件 行为 与 一 个 给 定 应 用 或 
应 用 集 的 需求 和 相关 环境 上 下 文 〈 如 底层 网 络 的 状态 和 风格 ) 有 关 。 这 个 看 法 推动 了 对 上 下 文 感知 和 
中 间 件 自 适应 解决 方案 的 兴趣 JL Kon 等 人 的 讨论 [2002]. 


2.4 ”基础 模型 


上 面 的 各 种 系统 模型 完全 不 同 ,但 具有 一 些 基 本 特性 。 特 别 是 ， 所 有 的 模型 都 由 若干 进程 组 成 ， 
这 些 进程 通过 在 计算 机 网 络 上 发 送 消息 而 相互 通信 ， 所 有 的 模型 都 共享 下 列 设计 需求 : 实现 进程 及 网 
络 的 性 能 和 可 靠 性 特征 ， 确 保 系统 中 资源 的 安全 性 。 本 节 给 出 基于 基本 特性 的 模型 ， 利 用 这 些 模 型 ， 
我 们 能 更 详细 地 描述 系统 可 能 展示 的 特征 、 故 障 和 安全 风险 。 

通常 ， 为 了 理解 和 推理 系统 行为 的 某 些 方面 ， 一 个 基础 模型 应 该 仅 包含 我 们 要 考虑 的 实质 性 成 分 。 
这 样 一 个 模型 的 目的 是 : 

© 显 式 地 表示 有 关 我 们 正在 建 模 的 系统 的 假设 。 

。 给 定 这 些 假设 ， 就 什么 是 可 能 的 、 什 么 是 不 可 能 的 给 出 结论 。 结 论 以 通用 算法 或 要 确保 的 特性 

的 形式 给 出 。 特 性 成 立 的 保证 依赖 于 逻辑 分 析 和 (适当 时 候 的 ) 数学 证 明 。 

了 解 设计 依赖 什么 、 不 依赖 什么 , 我 们 就 能 从 中 获 益 。 如 果 在 一 个 特定 系统 中 实现 一 个 设计 ， 这 
个 设计 能 否 运 作 ， 我 们 只 和 需 询问 在 那个 系统 中 假设 是 否 成 立 。 通 过 清晰 、 显 式 地 给 出 我 们 的 假设 ， 就 
能 利用 数学 技巧 证 明 系 统 的 特征 ， 这 些 特 征 对 任何 满足 假设 的 系统 都 成 立 。 最 后 ， 通 过 从 细节 ( 如 硬 
件 ) 中 抽象 系统 的 基本 实体 和 特性 ， 我 们 就 能 曾 明 对 系统 的 理解 。 

我 们 希望 在 我 们 的 基本 模型 中 提取 的 分 布 式 系统 情况 能 解决 下 列 问题 : 

RE: 计算 在 进程 中 发 生 ， 进 程 通过 传递 消息 交互 ， 并 引发 进程 之 间 的 通信 【信息 流 ) 和 协调 
(活动 的 同步 和 排序 ) 。 在 分 布 式 系统 的 分 析 和 设计 中 ， 我 们 特别 关注 这 些 交 互 。 交 互 模 型 必须 反映 通 
信 带 来 的 延迟 ， 这 些 延迟 的 持续 时 间 会 比较 长 ， 交 互 模型 必须 反映 独立 进程 相互 配合 的 准确 性 受 限于 
这 些 延 迟 ， 受 限于 在 分 布 式 系统 中 很 难 跨 所 有 计算 机 维护 同一 时 间 概 念 。 

故障 : 只 要 分 布 式 系统 运行 的 任 一 计算 机 上 出 现 故 障 (包括 软件 故障 ) 或 连接 它们 的 网 络 出 现 故 
障 ， 分 布 式 系统 的 正确 操作 就 会 受到 威胁 。 我 们 的 模型 将 对 这 些 故 障 进行 定义 和 分 类 。 这 为 分 析 它 们 
潜在 效果 以 及 设计 能 容忍 每 种 类 型 故障 的 系统 葛 定 了 基础 。 

安全 : 分 布 式 系统 的 模块 特性 和 开放 性 将 其 暴露 在 外 部 代理 和 内 部 代理 的 攻击 下 。 我 们 的 安全 模 
型 对 发 生 这 种 攻击 的 形式 给 出 了 定义 并 进行 了 分 类 ， 为 分 析 对 系统 的 威胁 以 及 设计 能 抵御 这 些 威 胁 的 
系统 黄 定 了 基础 。 

为 了 帮助 讨论 和 推理 ， 我 们 对 本 章 介 绍 的 模型 进行 了 必要 的 简化 ， 省 略 了 许多 真实 系统 中 的 细节 。 
它们 与 真实 系统 的 关系 ， 以 及 在 模型 帮助 下 揭示 的 问题 环境 中 的 解决 方案 是 本 书 讨论 的 主题 。 


2.4.1 交互 模型 


2. 3 节 对 系统 体系 结构 的 讨论 表明 分 布 式 系统 由 多 个 以 复杂 方式 进行 交互 的 进程 组 成 。 例 如 : 
。 多 个 服务 器 进程 能 相互 协作 提供 服务 ， 前 面 提 到 的 例子 有 域名 服务 〈 它 将 数据 分 区 并 复制 到 互联 网 
中 的 服务 器 上 ) 和 Sun 的 网 络 信息 服务 〈 它 在 局 域 网 的 几 个 服务 器 上 保存 口令 文件 的 复制 版 本 ) 。 

。 对 等 进程 能 相互 协作 获得 一 个 共同 的 目标 。 例 如 ,一 个 语音 会 议 系 统 ， 它 以 类 似 的 方式 分 布 音 

频数 据 流 ， 但 它 有 严格 的 实时 限制 。 

大 多 数 程序 员 非常 熟悉 算法 的 概念 一 一 采取 一 系列 步骤 以 执行 期 望 的 计算 。 简 单 的 程序 由 算法 控 
制 , 算法 中 的 每 一 步 都 有 严格 的 顺序 。 由 算法 决定 程序 的 行为 和 程序 变量 的 状态 。 这 样 的 程序 作为 一 
个 进程 执行 。 由 多 个 上 面 所 说 的 进程 组 成 的 分 布 式 系统 是 很 复杂 的 。 它 们 的 行为 和 状态 能 用 分 布 式 算 
法 描述 一 一 分 布 式 算法 定义 了 组 成 系统 的 每 个 进程 所 采取 的 步 又 ， 包 括 它们 之 间 消 息 的 传递 。 消 息 在 
进程 之 间 传 递 以 便 在 它们 之 间 传 递 信息 并 协调 它们 的 活动 。 

每 个 进程 执行 的 速率 和 进程 之 间 消 息 传递 的 时 限 通 常 是 不 能 预测 的 。 要 描述 分 布 式 算法 的 所 有 状 
态 也 非常 困难 ， 因 为 它 必 须 处 理 所 涉及 的 一 个 或 多 个 进程 的 故障 或 消息 传递 的 故障 。 
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进程 交互 完成 了 分 布 式 系统 中 所 有 的 活动 。 每 个 进程 有 它 自 己 的 状态 ， 该 状态 由 进程 能 访问 和 更 
新 的 数据 集 组 成 ， 包 括 程序 中 的 变量 。 属 于 每 个 进程 的 状态 完全 是 私有 的 一 一 也 就 是 说 ， 它 不 能 被 其 
他 进程 访问 或 更 新 。 

本 节 讨 论 分 布 式 系统 中 影响 进程 交互 的 两 个 重要 因素 : 

。 通信 性 能 经 常 是 一 个 限制 特性 。 

。 不 可 能 维护 一 个 全 局 时 间 概 念 。 

通信 通道 的 性 能 “在 我 们 的 模型 中 ， 通 信 通 道 在 分 布 式 系统 中 可 用 许多 方法 实现 ， 例 如 ， 通 过 计 
算 机 网 络 上 的 流 或 简单 消息 传递 来 实现 。 计 算 机 网 络 上 的 通信 有 下 列 与 延迟 (latency), FE (band- 
width) 和 持 动 (jitter) 有 关 的 性 能 特征 : 

© 从 一 个 进程 开始 发 送 消 息 到 另 一 个 进程 开始 接收 消息 之 间 的 间隔 时 间 称 为 延迟 。 延 迟 包 括 : 

一 第 一 串 比特 通过 网 络 传递 到 目的 地 所 花费 的 时 间 。 例 如 ， 通 过 卫星 链接 传递 消息 的 延迟 是 无 


线 电信 和 号 到 达 卫 星 并 返回 的 时 间 。 

一 访问 网 络 的 延迟 ， 当 网 络 负载 很 重 时 ， 延 迟 增长 很 快 。 例 如 ， 对 以 太 网 传送 而 言 ， 发 送 站 点 
要 等 待 网 络 空闲 。 

一 操作 系统 通信 服务 在 发 送 进程 和 接收 进程 上 所 花费 的 时 间 ， 这 个 时 间 会 随 操作 系统 当前 的 负 
载 的 变化 而 变化 。 


计算 机 网 络 的 带宽 是 指 在 给 定时 间 内 网 络 能 传递 的 信息 总 量 。 当 大 量 通信 通道 使 用 同一 个 网 络 
时 ， 它 们 就 不 得 不 共享 可 用 的 带宽 。 

持 动 是 传递 一 系列 消息 所 花费 的 时 间 的 变化 值 。 抖 动 与 多 媒体 数据 有 关 。 例 如 ， 如 果 音 频数 据 
的 连续 采样 在 不 同 的 时 间 人 间隔 内 播放 ， 那 么 声音 将 严重 失真 。 

计算 机 时 钟 和 时 序 事件 ”分布 式 系统 中 的 每 台 计 算 机 有 自己 的 内 部 时 钟 ， 本 地 进程 用 这 个 时 钟 获 
得 当前 时 间 值 。 因 此 ， 在 不 同 计算 机 上 运行 的 两 个 进程 能 将 时 间 惟 与 它们 的 事件 关联 起 来 。 但 是 ， 即 
使 责 个 进程 在 同时 读 它 们 的 时 钟 ， 它 们 各 自 的 本 地 时 钟 也 会 提供 不 同 的 时 间 值 。 这 是 因为 计算 机 时 钟 
和 绝对 时 间 之 间 有 偏 移 ， 更 重要 的 是 ， 它 们 的 漂移 率 孔 不 相同 。 术 语 时 钟 漂移 率 (clock drift rate) 指 
的 是 计算 机 时 钟 偏离 绝对 参考 时 钟 的 比率 。 即 使 分 布 式 系统 中 所 有 计算 机 的 时 钟 在 初始 情况 下 都 设置 
成 相同 的 时 间 ， 它 们 的 时 钟 最 后 也 会 相差 巨大 ， 除 非 进行 校正 。 

有 几 种 校正 计算 机 时 钟 的 时 间 的 方法 。 例 如 ， 计 算 机 可 使 用 无 线 电 接收 器 从 全 球 定位 系统 (GPS) 
VA lps 的 精度 接收 时 间 读 数 。 但 GPS 接收 器 不 能 在 建筑 物 内 工作 ， 同 时 ， 为 每 一 台 计 算 机 增加 
GPS 在 费用 上 也 不 合理 。 相 反 ， 具 有 精确 时 间 源 (如 GPS) 的 计算 机 可 发 送 时 序 消息 给 网 络 中 的 其 他 
计算 机 。 在 两 个 本 地 时 钟 时 间 之 间 进 行 协商 当然 会 受 消息 延迟 的 影响 。 有 关 时 钟 漂移 和 时 钟 同步 的 更 
详细 的 讨论 见 第 14 章 。 

交互 模型 的 两 个 变 体 ”在 分 布 式 系统 中 ， 很 难 对 进程 执行 、 消 息 传递 或 时 钟 漂移 所 花 的 时 间 设 置 
时 间 限 制 。 两 种 截然 相反 的 观点 提供 了 一 对 简单 模型 : 第 一 个 模型 对 时 间 有 严格 的 假设 ,第 二 个 模型 
对 时 间 没 有 假设 。 

同步 分 布 式 系统 : Hadzilacos 和 Toueg [1994] 定义 了 一 个 同步 分 布 式 系 统 ， 它 满足 下 列 约束 : 

。 进程 执行 每 一 步 的 时 间 有 一 个 上 限 和 下 限 。 

。 通过 通道 传递 的 每 个 消息 在 一 个 已 知 的 时 间 范 围 内 接收 到 。 

。 每 个 进程 有 一 个 本 地 时 钟 ， 它 与 实际 时 间 的 偏 移 率 在 一 个 已 知 的 范围 内 。 

对 于 分 布 式 系 统 ， 建 议 给 出 合适 的 关于 进程 执行 时 间 、 消 息 延 迟 和 时 钟 漂移 率 的 上 界 和 下 界 是 可 
能 的 。 但 是 达到 实际 值 并 对 所 选 值 提供 保证 是 比较 困难 的 。 除 非 能 保证 上 界 和 下 界 的 值 ， 和 否则 任何 基 
于 所 选 值 的 设计 都 不 可 靠 。 但 是 ， 按 同步 系统 构造 算法 ， 可 以 对 算法 在 实际 分 布 式 系统 的 行为 提供 一 
些 想 法 。 例 如 ， 在 同步 系统 中 ， 可 以 使 用 超时 来 检测 进程 的 故障 ， 参见 下 面 的 2.4.2 节 。 

同步 分 布 式 系统 是 能 够 被 构造 出 来 的 。 所 要 求 的 是 进程 用 已 知 的 资源 需求 完成 任务 ， 这 些 资 源 需 
求 保证 有 足够 的 处 理 器 周期 和 网 络 能 力 ; 还 有 要 为 进程 提供 漂移 率 在 一 定 范围 内 的 时 钟 。 

异步 分 布 式 系统 ; 许多 分 布 式 系统 ， 例 如 互联 网 ， 是 非常 有 用 的 ， 但 它们 不 具备 同步 系统 的 资格 。 
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因此 我 们 需要 另 一 个 模型 。 异 步 分 布 式 系统 是 对 下 列 因素 没有 限制 的 系统 : 
行 ， 一 步 可 能 只 花费 亿 万 分 之 一 秒 ， 而 进程 的 另 一 步 要 花费 一 个 世 
纪 的 时 间 ， 也 就 是 说 ， 每 一 步 能 花费 任意 长 的 时 间 。 








个 消息 的 时 间 可 能 快 得 可 以 忽略 ， 也 可 能 
要 花费 几 年 时 间 。 换 名 话说 ， 消 息 可 在 任意 长 时 间 后 接收 到 。 

。 时 钟 漂移 率 一 一 时 钟 漂移 率 可 以 是 任意 的 。 

蜡 步 模型 对 执行 的 时 间 间 聘 没 有 任何 假设 。 这 正好 与 互联 网 一 致 ， 在 互联 网 中 ， 服 务 器 或 网 络 负 
载 没 有 内 在 的 约束 ， 对 像 用 FTP 传输 文件 要 人 花费 多 长 时 间 也 没有 限制 。 有 时 电子 邮件 消息 要 花 几 天 时 
间 才 能 到 达 。 下 面 的 “Pepperland 协定 ”部 分 说 明 在 异步 分 布 式 系统 中 达成 协定 的 困难 性 。 

即使 有 这 些 假 设 ， 有 些 设计 问题 也 能 得 到 解决 。 例 如 ， 虽 然 Web 并 不 总 能 在 一 个 合理 的 时 间 限 制 
内 提供 特定 的 响应 ， 但 浏览 器 的 设计 可 以 做 到 证 用 户 在 等 待 时 做 其 他 事情 。 对 异步 分 布 式 系统 有 效 的 
任何 解决 方案 对 同步 系统 同样 有 效 。 

实际 的 分 布 式 系统 经 常 是 异步 的 ， 因为 进程 需要 共享 处 理 名 而 通信 通道 需要 共享 网 络 。 例 如 ， 
如 果 有 太 多 特性 未 知 的 进程 共享 一 个 处 理 器 ， 那 么 任何 一 个 进程 的 性 能 都 不 能 保证 。 但 是 ， 有 许多 不 
能 在 异步 系统 中 解决 的 设计 问题 ， 在 使 用 时 间 的 某 些 特征 后 就 能 解决 。 在 最 终 期 限 之 前 传递 多 媒体 数 
据 流 的 每 个 元 素 就 是 这 样 一 个 问题 。 对 这 样 的 问题 ， 可 使 用 同步 模型 。 

事件 排序 ”在 许多 情况 下 ， 我 们 有 兴趣 知道 一 个 进程 中 的 一 个 事件 〈 发 送 或 接收 一 个 消息 ) 是 发 
生 在 另 一 个 进程 中 的 另 一 个 事件 之 前 、 之 后 或 同时 。 尽 管 缺乏 精确 的 时 钟 ， 但 系统 的 执行 仍 能 用 事件 
和 它们 的 顺序 来 描述 。 

例如 ， 考 虑 下 列 在 邮件 列表 中 一 组 电子 邮件 用 户 X、Y、Z、A 之 间 的 邮件 交换 ， 

1) FAP X Rid EAA Meeting 的 消息 。 

2) FAP Y AZ 发 送 一 个 主题 为 Re: Meeting 的 消息 进行 回复 。 

在 实际 环境 中 ，X 的 消息 最 早 发 送 , Y 读 取 它 并 回复 ; Z 读 取 X 的 消息 和 TY 的 回复 并 发 出 另 一 个 
回复 ， 该 回复 引用 了 X 和 了 的 消息 。 但 是 由 于 在 消息 传递 中 各 自 独立 的 延迟 ， 消 息 的 传递 可 能 像 图 2-13 
所 示 的 一 样 ， 一 些 用 户 可 能 以 错误 的 顺序 查看 这 两 个 消息 。 例 如 ， 用 户 A 可 能 看 见 : 









Re: Meeting 
Meeting 
Re: Meeting 













Pepperland 协定 ”Pepperand 军队 的 两 个 师 “ 红 师 ” 和 “ 蓝 师 ”驻扎 在 邻近 两 座 山 的 山顶 上 
山谷 下 面 是 人 侵 的 敌 军 。 只 要 Pepperland 的 两 个 师 留 在 驻地 ， 他 们 就 是 安全 的 ， 他 们 通过 派出 通信 
兵 穿 过 山谷 进行 通信 。Peppenand 的 两 个 师 需要 协商 它们 中 的 娜 一 方 率 先 发 起 对 敌 军 的 冲锋 以 及 冲 
锋 何 时 进行 。 即 使 是 在 异步 的 Pepperland 中 ， 由 谁 率先 冲锋 是 可 能 达成 一 致 的 。 例 如 ， 每 个 师 报告 
剩余 人 员 的 数量 ， 人 数 多 的 一 方 率 先 冲锋 (如 果 人 数 一 样 多 ， 则 由 红 师 率先 冲锋 ) 。 但 何 时 冲锋 
We? 非常 遗憾 ， 在 异步 Pepperland， 通 信 兵 的 速度 是 变化 的 。 如 果 红 师 派出 一 个 通信 兵 , 带 着 “ 溃 
锋 ” 消 息 ， 蓝 师 可 能 3 个 小 时 也 收 不 到 这 个 消息 ， 也 可 能 5 分 钟 就 收 到 这 个 消息 了 。 在 同步 Pep- 
perland 中 ,仍然 有 协调 问题 ， 但 是 两 个 师 知道 一 些 有 用 的 约束 : 每 个 消息 至 少 花费 min 分 钟 和 至 
多 花费 max 分 钟 到 达 。 如 果 率 先 冲锋 的 师 发 送 “ 冲 锋 ” 消 息 ， 那 么 它 等 待 min 分 钟 就 可 以 冲锋 。 
另 一 个 师 在 收 到 消息 后 等 待 1 分 钟 ， 然 后 冲锋 。 在 率先 冲锋 的 师 之 后 、 不 超过 (max - min +1) 分 
钟 ， 另 一 个 师 保证 发 起 冲锋 。 


如 果 X、Y、Z 的 计算 机 上 的 时 钟 能 同步 ， 那 么 每 个 消息 在 发 送 时 可 以 携带 本 地 计算 机 时 钟 的 时 
Ho WA, HAm, m 和 ms 能 携带 时 间 珀 、 握 、 与 ， 其 中 心 < 已 < 坟 。 接 收 到 的 消息 将 根据 它们 的 时 间 
排序 显示 给 用 户 。 如 果 时 钟 基本 上 同步 ， 那 么 这 些 时 间 蕉 通常 会 以 正确 的 顺序 排列 。 








i 
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图 2-13 事件 的 实时 排序 


因为 在 一 个 分 布 式 系统 中 时 钟 不 能 精确 同步 ， 所 以 Lamport [1978] 提出 了 运 辑 时 间 的 模型 ， 为 在 
分 布 式 系统 中 运行 于 不 同 计 算 机 上 的 进程 的 事件 提供 顺序 。 使 用 逻辑 时 间 不 需要 求助 于 时 钟 就 可 以 推 
断 出 消息 的 顺序 。 详 细 内 容 可 参见 第 14 章 ， 我 们 在 这 里 只 介绍 如 何 将 逻辑 排序 的 某 些 方面 应 用 到 邮件 
排序 问题 。 

逻辑 上 ， 我 们 知道 消息 在 它 发 送 之 后 才 被 接收 ， 因 此 ， 我 们 为 图 2- 13 所 示 的 成 对 事件 给 出 一 个 逻 
辑 排序 。 例 如 ， 仅 考虑 涉及 X 和 了 的 事件 ; 

XEYR m ZRA m; Y AX BS) m VAR m, 

我 们 也 知道 应 答 在 接收 到 消息 后 发 出 ， 因 此 对 于 Y， 我 们 有 下 列 逻 辑 排序 ; 

Y RRR m 之 前 接收 m, 

逻辑 时 间 通 过 给 每 个 事件 赋予 一 个 与 它 的 逻辑 顺序 相对 应 的 数字 而 进一步 拓展 了 这 个 思想 。 这 样 ， 
后 发 生 的 事件 的 数字 比 早 发 生 的 事件 的 数字 大 。 例 如 ， 图 2-13 显示 了 X 和 YY 上 的 事件 ， 其 数字 为 1 ~4。 


2.4.2 故障 模型 | 


在 分 布 式 系统 中 ， 进 程 和 通信 通道 都 有 可 能 出 故障 ， 即 它们 可 能 偏离 被 认为 是 正确 或 所 期 望 的 行 
为 。 故 障 模 型 定义 了 故障 可 能 发 生 的 方式 ， 以 便 理 解 故障 所 产生 的 影响 。Hadzilacos 和 Toueg [1994] 
提供 了 一 种 分 类 法 ， 用 于 区 分 进程 故障 和 通信 通道 故障 。 这 些 故障 将 分 别 在 下 面 的 “遗漏 故障 ”、“ 随 
机 故障 ”和 “时 序 故 障 ”部 分 介绍 。 

本 书 将 贯穿 使 用 故障 模型 。 例 如 : 

。 第 4 章 给 出 数据 报 和 流通 信 的 Java 接口 ， 它 们 分 别提 供 不 同 程度 的 可 靠 性 。 

。 第 5 章 给 出 支持 RM 的 请 求 - 应 答 协议 。 它 的 故障 特征 取决 于 进程 和 通信 通道 两 者 的 故障 特 

征 。 该 协议 能 用 数据 报 或 流通 信 实 现 。 可 根据 实现 的 简单 性 、 性 能 和 可 靠 性 作出 决定 。 

© 第 17 章 给 出 事务 的 两 阶段 的 提交 协议 。 它 用 于 在 面 对 进 程 和 通信 通道 的 确定 性 故障 时 完成 

事务 。 

WM ”中 漏 故障 类 错误 指 的 是 进程 或 通信 通道 不 能 完成 它 应 该 做 的 动作 。 

进程 遗漏 故障 : 进程 主要 的 遗漏 故障 是 崩溃 。 当 我 们 说 进程 月 省 了 ， 意 为 进程 停止 了 ， 将 不 再 执 
行程 序 的 任何 步骤 。 能 在 故障 面前 存活 的 服务 ， 如 果 假 设 该 服务 所 依赖 的 服务 能 干净 利落 地 骨 演 ， 即 
进程 仍 能 正确 运行 或 者 停止 运行 ， 那 么 它 的 设计 能 被 简化 。 其 他 进程 通过 下 列 事实 能 检测 到 这 种 进程 
崩溃 : 这 个 进程 一 再 地 不 能 对 调用 消息 进行 应 答 。 然 而 ， 这 种 崩溃 检测 的 方法 依赖 超时 的 使 用 ， 即 进 
程 用 一 段 固 定时 间 等 待 某 个 事件 的 发 生 。 在 异步 系统 中 ， 超 时 只 能 表明 进程 没有 响应 一 一 它 可 能 是 裔 
演 了 ， 也 可 能 是 执行 速度 慢 , 或 者 是 消息 还 没有 到 达 。 

如 果 其 他 进程 能 确切 检测 到 进程 已 经 崩溃 ， 那 么 这 个 进程 月 溃 称 为 故障 - 停止。 在 同步 系统 中 ， 
如 果 确 保 消息 已 被 传递 ， 而 其 他 进程 又 没有 响应 时 ， 进 程 使 用 超时 来 检测 ， 那 么 就 会 产生 故障 -停止 
行为 。 例 如 ， 对 于 进程 p 和 49， 如 果 设 计 9? 应 答 来 自 z 的 消息 ， 而 且 进 程 p Eik p 本 地 时 钟 度量 的 一 个 


39 


40 


第 2 章 系统 模型 


最 大 时 间 范 围 内 没有 收 到 进程 g 的 应 答 ， 那 么 进程 p 可 以 得 出 结论 : 进程 g 出 现 了 故障 。 下 面 的 “ 故 
障 检测 ”和 “ 面 对 通 信和 故障 时 达成 协定 的 不 可 能 性 ”部 分 说 明 在 异步 系统 中 检测 故障 的 困难 以 及 在 故 
障 面前 达成 协定 的 困难 。 

通信 遗漏 故障 : 考虑 通信 原 语 send 和 re- 进程 p 进程 4 
ceive。 进 程 p 通过 将 消息 m 插入 到 它 的 外 发 
消息 缓冲 区 来 执行 send。 通 信 通 道 将 m 传输 
到 9 的 接收 消息 缓冲 区 。 进 程 q 通过 将 m 从 














它 的 接收 消息 级 神 区 取 走 并 完成 传递 来 执行 RNIN ama 网 
receive ( 见 图 2-14) 。 通 党 由 操作 系统 提供 外 a 
发 消息 缓冲 区 和 接收 消息 缓冲 区 。 图 2-14 进程 和 通道 


如 果 通 信和 通道 不 能 将 消息 从 的 外 发 消息 缓冲 区 传递 到 4 的 接收 消息 缓冲 区 ， 那 么 它 就 产生 了 遗漏 
故障 。 这 就 是 所 谓 的 “丢失 消息 ”， 造 成 消息 丢失 的 原因 通常 是 在 接收 端 或 中 间 的 网 关上 缺乏 缓冲 区 空 
间 ， 或 因为 网 络 传输 错误 (可 由 消息 数据 携带 的 校 验 和 检测 到 ) 。Hadzilacos 和 Toueg [ 1994] 把 在 发 送 
进程 和 外 发 消息 缓冲 区 之 间 的 消息 丢失 称 为 发 送 遗 漏 故 障 ; 在 接收 消息 缓冲 区 和 接收 进程 之 间 的 消息 丢 
失 称 为 接收 遗漏 故障 ; 在 两 者 之 间 的 消息 丢失 称 为 通道 遗漏 故障 。 遗 漏 故 障 和 随机 故障 的 分 类 见 图 2-15。 


故障 检测 ”在 Pepperland 师 驻 扎 在 山顶 的 情况 下 〈 见 “Pepperand WE” RWI), BARER 
集 足 够 的 力量 攻击 任意 一 个 扎营 的 师 ， 那 么 任意 一 个 师 都 可 能 失败 。 进 一 步 假 设 ， 在 没有 被 攻击 的 
时 候 ， 各 师 定 时 地 派出 通信 兵 向 对 方 报告 自己 的 状态 。 在 异步 系统 中 ， 没 有 一 个 师 能 区 别 是 对 方 被 
打败 了 还 是 通信 兵 跨 越 中 间 山 谷 的 时 间 太 长 。 在 同步 的 Pepperland 中 ， 一 个 师 通过 应 该 定期 出 现 的 
通信 兵 的 缺席 就 能 判断 出 另 一 个 师 是 否 被 打败 了 。 但 是 ， 另 一 个 师 可 能 在 派出 最 后 一 个 通信 兵 后 就 
被 打败 了 。 

面 对 通信 故障 时 达成 协定 的 不 可 能 性 ”我们 一 直 假设 Pepperland 通信 兵 最 终 总 能 设法 通过 由 
谷 ,但 现在 要 假设 敌 军 会 抓 住 通信 兵 ， 阻 止 他 到 达 〈 我 们 还 假设 敌人 不 可 能 给 通信 兵 “洗脑 ” ， 从 
而 让 他 传达 错误 的 消息 ) 。 红 师 和 蓝 师 能 发 送 消息 使 得 他 们 能 一 致 决定 对 敌 军 冲锋 或 投降 吗 ? 非常 
遗憾 ， 正 如 Pepperland 理论 家 Ringo 大 师 证 明 的 一 样 ， 在 这 样 的 环境 中 ， 两 个 师 不 能 一 致 地 决定 做 
什么 。 为 了 了 解 这 一 点 ,假设 其 反面 观点 成 立即 两 个 师 能 执行 达成 一 致 的 Pepperland 协议 。 某 一 方 
提出 “冲锋 !” 或 “投降 !”， 协 议 使 得 双方 同意 这 一 方 或 另 一 方 的 动作 。 现 在 考虑 在 某 一 轮 协议 中 
发 送 的 最 后 一 个 消息 。 携 带 消息 的 通信 兵 可 能 被 敌 军 俘虏 。 不 论 消息 到 达 与 否 ， 最 后 的 结果 必须 一 
致 。 所 以 我 们 去 掉 它 。 现 在 我 们 对 剩 下 消息 中 的 最 后 一 个 应 用 同一 论点 。 这 个 论点 可 再 应 用 到 那个 
消息 ， 然 后 继续 应 用 这 个 论点 ， 最 后 我 们 将 以 没有 要 发 送 的 消息 结束 ! 这 表明 如 果 通 信 兵 被 俘虏 ， 
就 没有 保证 Pepperland 师 之 间 一 致 的 协议 存在 。 


























故障 分 类 影响 对 象 描述 
| 故障 -停止 进程 进程 停止 并 一 直 停 止 。 其 他 进程 可 检测 到 这 个 状态 
it 进程 进程 停止 并 一 直 停 止 。 其 他 进程 可 能 无 法 检测 到 这 个 状态 
遗漏 通道 播 人 外 发 消息 缓冲 区 的 消息 不 能 到 达 另 一 端的 接收 消息 缓冲 区 
发 送 遗 漏 进程 进程 完成 了 send ,但 消息 没有 放 入 它 的 外 发 消息 缓冲 区 
接收 遗漏 进程 一 个 消息 已 放 在 进程 的 接收 消息 缓冲 多， 但 那个 进程 没有 接收 它 
随机 〈 和 拜占庭 式 ) 进程 或 通道 进程 /通道 显示 出 随机 行为 : 它 可 能 在 任意 时 刻 发 送 /传递 随机 的 消息 ， 会 
| 有 遗漏 发 生 ; 一 个 进程 可 能 停止 或 者 采取 不 正确 的 步 双 





— 





图 2-15 遗漏 故障 和 随机 故障 


故障 可 以 按照 它们 的 严重 性 分 类 。 到 现在 为 止 ， 我 们 描述 的 所 有 故障 是 良性 故障 。 在 分 布 式 系统 
中 ， 大 多 数 故 障 是 良性 的 。 良 性 故障 包括 遗漏 故障 以 及 时 序 故障 和 性 能 故障 。 
随机 故障 “术语 随机 故障 或 拜占庭 故障 用 于 描述 可 能 出 现 的 最 坏 的 故障 ， 此 时 可 能 发 生 任何 类 型 
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的 错误 。 例如， 一 个 进程 可 能 在 数据 项 中 设置 了 错误 的 值 ， 或 为 响应 一 个 调用 返回 一 个 错误 的 值 。 

进程 的 随机 故障 是 指 进程 随机 地 省 略 要 做 的 处 理 步骤 或 执行 一 些 不 需要 的 处 理 步 又。 进程 的 随机 
故障 不 能 通过 查看 进程 是 否 应 答 调用 来 检测 ， 因 为 它 可 能 随机 地 和 遗漏 应 答 。 

通信 通道 也 会 出 现 随机 故障 。 例 如 ， 消 息 内 容 可 能 被 损坏 或 者 传递 不 存在 的 消息 ， 也 可 能 多 次 传 
递 实际 的 消息 。 通 信 通 道 的 随机 故障 很 少 ， 因 为 通信 软件 能 识别 这 类 故障 并 拒绝 出 错 的 消息 。 例 如 ， 
可 用 校 验 和 来 检测 损坏 的 消息 ， 消 息 序 号 可 用 于 检测 不 存在 和 重复 的 消息 。 

时 序 故 障 ”时序 故障 适用 于 同步 分 布 式 系统 。 在 这 样 的 系统 中 ， 对 进程 执行 时 间 、 消 息 传 递 时 间 
和 时 钟 漂移 率 均 有 限制 。 时 序 故 障 见 图 2-16 的 列表 。 这 些 故 障 中 的 任何 一 个 均 可 导致 在 指定 时 间 间 隔 
肉 对 客户 没有 响应 。 











故障 类 型 影响 对 象 Hw oR 
时 钟 进程 进程 的 本 地 时 钟 超过 了 与 实际 时 间 的 漂移 率 的 范围 
性 能 进程 进程 超过 了 两 个 进程 步 之 间 的 间隔 范围 
性 能 通道 消息 传递 花费 了 上 比 规定 的 范围 更 长 的 时 间 
图 2-16 时序 故障 


在 异步 分 布 式 系统 中 ， 一 个 负载 过 重 的 服务 器 的 响应 时 间 可 能 很 长 ， 但 我 们 不 能 说 它 有 时 序 故 障 ， 
因为 它 不 提供 任何 保证 。 

实时 操作 系统 是 以 提供 时 序 保证 为 目的 而 设计 的 ， 但 这 种 系统 在 设计 上 很 复杂 的 ， 会 要 求 元 余 的 
硬件 。 大 多 数 通用 的 操作 系统 (如 UNIX) 不 能 满足 实时 约束 。 

时 序 与 有 音频 和 视频 通道 的 多 媒体 计算 机 的 关系 尤为 密切 。 视 频 信 息 要 求 传输 海量 的 数据 。 若 要 
在 传递 视频 信息 时 不 出 现时 序 故 障 ， 那 么 就 要 对 操作 系统 和 通信 系统 提出 特殊 的 要 求 。 

故障 屏 蕊 ”分 布 式 系 统 中 的 每 个 组 件 通常 是 基于 其 他 一 组 组 件 构造 的 。 利 用 存在 故障 的 组 件 构造 
可 靠 的 服务 是 可 能 的 。 例 如 ， 保 存 有 数据 副本 的 多 个 服务 器 在 其 中 一 个 服务 器 愤 溃 时 能 继续 提供 服务 。 
了 解 组 件 的 故障 特征 有 利于 在 设计 新 服务 时 屏蔽 它 所 依赖 的 组 件 的 故障 。 一 个 服务 通过 隐藏 故障 或 者 
将 故障 转换 成 一 个 更 能 接受 的 故障 类 型 来 屏 项 故障 。 对 于 后 者 ， 我 们 给 出 一 个 例子 ， 校 验 和 用 于 屏蔽 
损坏 的 消息 ， 它 有 效 地 将 随机 故障 转化 为 遗漏 故障 。 第 3 章 和 第 4 章 介绍 通过 使 用 将 不 能 到 达 目 的 地 
的 消息 重 传 的 协议 可 以 隐藏 遗漏 故障 。 第 18 章 将 介绍 利用 复制 进行 故障 屏蔽 的 方法 。 甚 至 进程 崩溃 也 
可 以 屏 项 ， 即 通过 替换 崩溃 进程 并 根据 原 进 程 存储 在 磁盘 上 的 信息 恢复 内 存 来 实现 。 

一 对 一 通信 的 可 靠 性 ”虽然 基本 的 通信 通道 可 能 出 现 前 面 描述 的 遗漏 故障 ， 但 用 它 来 构造 一 个 能 
屏 藏 某 些 故 障 的 通信 服务 是 可 能 的 。 

术语 可 靠 通 信 可 从 下 列 有 效 性 和 完整 性 的 角度 来 定义 : 

有 效 性 : 外 发 消息 缓冲 区 中 的 任何 消息 最 终 能 传递 到 接收 消息 缓冲 区 。 

完整 性 ， 接收 到 的 消息 与 发 送 的 消息 一 致 ， 没 有 消息 被 传递 两 次 。 

对 完整 性 的 威胁 来 自 两 个 方面 : 

。 任何 重 发 消息 但 不 拒绝 到 达 两 次 的 消息 的 协议 。 要 检测 消息 是 否 到 达 了 两 次 ， 可 以 在 协议 中 给 

消息 附加 序号 。 
。 心怀 恶意 的 用 户 ， 季 们 可 能 插入 伪造 的 消息 、 重 放 旧 的 消息 或 算 改 消息 。 在 面 对 这 种 攻击 时 为 
维护 完整 性 要 采取 相应 的 安全 措施 。 


2.4.3 安全 模型 


在 第 1 章 中 ， 我 们 识别 出 资源 共享 是 分 布 式 系统 的 一 个 激发 因素 。 在 2.3 节 中 ,我 们 用 进程 来 描 
述 分 布 式 系统 的 体系 结构 ， 其 中 可 能 封装 了 如 对 象 、 组 件 或 服务 等 的 高 层 抽象 ， 而 且 ， 我 们 通过 与 其 
他 进程 的 交互 来 访问 系统 。 那 个 体系 结构 模型 为 我 们 的 安全 模型 提供 了 基础 ， 
通过 保证 进程 和 用 于 进程 交互 的 通道 的 安全 以 及 保护 所 封装 的 对 象 免 遭 未 授权 访问 可 实 
现 分 布 式 系 统 的 安全 。 
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这 里 ， 从 对 象 角度 描述 保护 ， 尽 管 这 些 概念 可 以 平等 地 应 用 到 所 有 类 型 的 资源 上 。 
保护 对 象 ”图 2-17 给 出 了 代表 一 些 用 户 管理 一 组 对 象 的 一 个 服务 器 。 用 户 运行 客户 程序 ， 由 客户 
程序 向 服务 器 发 送 调用 以 完成 在 对 象 上 的 操作 。 服 务 器 完成 每 个 调用 指定 的 操作 并 将 结果 发 给 客户 。 
访问 权限 对 象 


调用 
(A 
GS —(iiCT 
结果 口服 务 器 
| | 
ER CAP) 网 络 主体 (服务 器 ) 
图 2-17 对 象 和 主体 


对 象 可 由 不 同 的 用 户 按 不 同 的 方式 使 用 。 例 如 ， 有 些 对 象 持 有 用 户 的 私有 数据 ， 如 他 们 的 邮箱 ， 
而 其 他 对 象 可 能 持 有 共享 数据 ， 如 Web 页 面 。 为 了 解决 这 样 的 问题 ， 访 问 权限 指定 了 允许 谁 执行 一 个 
对 象 的 操作 一 一 例如 ， 人 允许 谁 读 或 写 它 的 状态 。 

这 样 ， 我 们 必须 在 我 们 的 模型 中 包括 作为 访问 权限 受益 人 的 用 户 。 我 们 将 每 个 调用 和 每 个 结果 均 
与 对 应 的 授权 方 相关 联 。 这 样 的 一 个 授权 方 称 为 一 个 主体 (principal) 。 一 个 主体 可 以 是 一 个 用 户 或 进 
程 。 在 我 们 的 图 示 中 ,调用 来 自用 户 ,结果 来 自 服务 器 。 

服务 器 负责 验证 每 个 调用 的 主体 的 身份 ， 检 查 它 们 是 否 有 足够 的 访问 权限 在 所 调用 的 某 个 对 象 上 
完成 所 请 求 的 操作 ， 如 果 没 有 权限 就 拒绝 它们 的 请 求 。 客 户 可 以 检查 服务 器 的 主体 身份 以 确保 结果 来 
自 所 请 求 的 服务 器 。 

保护 进程 和 它们 的 交互 ”进程 通过 发 送 消息 进行 交互 。 消 息 易 于 受到 攻击 ， 因 为 它们 所 使 用 的 网 
络 和 通信 服务 是 开放 的 ， 以 使 得 任 一 对 进程 可 以 进行 交互 。 服 务 器 和 对 等 进程 暴露 它们 的 接口 ， 使 得 
任何 其 他 进程 能 给 它们 发 送 调用 。 

[72] 分 布 式 系统 经 常 在 可 能 受到 来 自 敌 对 用 户 的 外 部 攻击 的 任务 中 使 用 和 部 署 。 对 处 理 金融 交易 、 机 
要 或 秘密 信息 以 及 任何 注重 信息 保密 性 或 完整 性 的 应 用 而 言 ， 这 一 点 是 千 真 万 确 的 。 完 整 性 会 由 于 违 
反 安 全 规则 以 及 通信 故障 而 受到 威胁 。 所 以 我 们 知道 有 可 能 存在 对 组 成 这 样 的 应 用 的 进程 的 威胁 和 对 
在 进程 之 间 传 送 的 消息 的 威胁 。 但 为 了 识别 和 抵御 这 些 威胁 ， 我 们 如 何 分 析 它 们 呢 ? 下 面 的 讨论 将 介 
绍 一 个 分 析 安 全 威胁 的 模型 。 

BA 为 了 给 安全 威胁 建 模 ， 我 们 假定 敌人 (有 了 时 也 称 为 对 手 ) 能 给 任何 进程 发 送 任何 消息 ， 并 
读 取 或 复制 一 对 进程 之 间 的 任何 消息 ， 如 图 2-18 所 示 。 这 种 攻击 能 很 简单 地 实现 ， 它 利用 连接 在 网 上 
的 计算 机 运行 一 个 程序 读 取 那 些 发 送 给 网 络 上 其 他 计算 机 的 网 络 消息 ， 或 是 运行 一 个 程序 生成 假 的 服 
务 请 求 消息 并 声称 来 自 授权 的 用 户 。 攻 击 可 能 来 自 合法 连接 到 网 络 的 计算 机 或 以 非 授权 方式 连接 到 网 

















络 的 计算 机 。 
m 的 拷贝 
| mm 
| a f p 
m f a C) 
通信 通道 
图 2-18 敌人 


来 自 一 个 潜在 敌人 的 威胁 包括 对 进程 的 威胁 和 对 通信 通道 的 威胁 。 

对 进程 的 威胁 : 在 分 布 式 系统 中 ， 一 个 用 于 处 理 到 达 的 请 求 的 进程 可 以 接收 来 自 其 他 进程 的 消息 ， 
但 它 未 必 能 确定 发 送 方 的 身份 。 通 信 协 议 (如下) 确实 在 每 个 消息 中 包括 了 源 计 算 机 的 地 址 ， 但 对 一 
个 敌人 而 言 ， 用 一 个 假 的 源 地 址 生成 一 个 消息 并 不 困难 。 缺 乏 消息 源 的 可 靠 的 知识 对 服务 器 和 客户 的 
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正确 工作 而 言 是 一 个 威胁 ， 具体 解释 如 下 : 

。 服务 器 : 因为 服务 器 能 接收 来 自 许多 不 同 客户 的 调用 ， 所 以 它 未 必 能 确定 进行 调用 的 主体 的 身 
份 。 即 使 服务 器 要 求 在 每 个 调用 中 加 入 主体 的 身份 ， 敌 人 也 可 能 用 假 的 身份 生成 一 个 调用 。 在 
没有 关于 发 送 方 身份 的 可 靠 知识 时 ， 服 务 器 不 能 断定 应 执行 操作 还 是 拒绝 执行 操作 。 例 如 ， 邮 
件 服 务 器 不 知道 从 指定 邮箱 中 请 求 一 个 邮件 的 用 户 是 否 有 权限 这 样 做 ， 或 者 它 是 否 为 来 自 一 个 
敌人 的 请 求 。 

。 客户 : 当 客 户 接收 到 服务 器 的 调用 结果 时 ， 它 未 必 能 区 分 结果 消息 来 自 预 期 的 服务 器 还 是 来 自 
一 个 “哄骗 ”邮件 服务 器 的 敌人 。 因 此 ， 客 户 可 能 接收 到 一 个 与 原始 调用 无 关 的 结果 ， 如 一 
个 假 的 邮件 〈 不 在 用 户 邮箱 中 的 邮件 ) 。 

对 通信 通道 的 威胁 : 一 个 敌人 在 网 络 和 网 关上 行进 时 能 复制 、 改 变 或 插入 消息 。 当 信息 在 网 络 上 
传递 时 ， 这 种 攻击 会 对 信息 的 私密 性 和 完整 性 构成 威胁 ， 对 系统 的 完整 性 也 会 构成 威胁 。 例 如 ， 包 含 
用 户 邮 件 的 结果 消息 可 能 泄露 给 另 一 个 用 户 或 者 可 能 被 改变 成 完全 不 同 的 东西 。 

另 一 种 形式 的 攻击 是 试图 保存 消息 的 拷贝 并 在 以 后 重 放 这 个 消息 ， 这 使 得 反复 重用 同一 消息 成 为 
可 能 。 例 如 ， 有 些 人 通过 重 发 请 求 从 一 个 银行 账户 转账 到 另 一 个 银行 账户 的 调用 消息 而 受益 。 

利用 安全 通道 可 解除 这 些 威胁 ， 安 全 通道 是 基于 密码 学 和 认证 的 ， 详 细 内 容 见 下 面 的 描述 。 

解除 安全 威胁 下 面 将 介绍 安全 系统 所 基于 的 主要 技术 。 第 11 章 将 详细 讨论 安全 的 分 布 式 系统 的 
设计 和 实现 。 

密码 学 和 共享 秘密 : 假设 一 对 进程 (例如 某 个 客户 和 某 个 服务 器 ) 共享 一 个 秘密 ， 即 它们 两 个 知 
道 秘密 但 分 布 式 系统 中 的 其 他 进程 不 知道 这 个 秘密 。 如 果 由 一 对 进程 交换 的 消息 包括 证 明 发 送 方 共享 
秘密 的 信息 ， 那 么 接收 方 就 能 确认 发 送 方 是 一 对 进程 中 的 另 一 个 进程 。 当 然 ， 必 须 小 心 以 确保 共享 的 
秘密 不 泄露 给 敌人 。 

密码 学 是 保证 消息 安全 的 科学 ， 加 密 是 将 消息 编码 以 隐藏 其 内 容 的 过 程 。 现 代 密 码 学 基于 使 用 密 
钥 〈 很 难 猜测 的 大 数 ) 的 加 密 算法 来 传输 数据 ， 这 些 数 据 只 能 用 相应 的 解密 密 钥 恢 复 。 

认证 : 共享 秘密 和 加 密 的 使 用 为 消息 的 认证 〈 证 明 由 发 送 方 提供 的 身份 ) 奠定 了 基础 。 基 本 的 认 
证 技术 是 在 消息 中 包含 加 密 部 分 ， 该 部 分 中 包含 足够 的 消息 内 容 以 保证 它 的 真实 性 。 对 文件 服务 器 的 
一 个 读 取 部 分 文件 的 请 求 ， 其 认证 部 分 可 能 包括 请 求 的 主体 身份 的 表示 、 文 件 的 标识 、 请 求 的 日 期 和 
时 间 ， 所 有 内 容 都 用 一 个 在 文件 服务 器 和 请 求 的 进程 之 间 共 享 的 密 钥 加 密 。 服 务 器 能 解密 这 个 请 求 并 
检查 它 是 否 与 请 求 中 指定 的 未 加 密 细节 相对 应 。 

安全 通道 : 加密 和 认证 用 于 构造 安全 通道 ， 安 全 通道 作为 已 有 的 通信 服务 层 之 上 的 服务 层 。 安 全 通道 
是 连接 一 对 进程 的 通信 通道 ， 每 个 进程 代表 一 个 主体 行事 ， 如 图 2-19 所 示 。 一 个 安全 通道 有 下 列 特性 : 
。 每 个 进程 确切 知道 其 他 正在 执行 的 进程 所 代表 的 主体 身份 。 因 此 ， 如 果 客 户 和 服务 器 通过 安全 
通道 通信 ， 那 么 服务 器 要 知道 发 起 调用 的 主体 身份 ， 并 能 在 执行 操作 之 前 检查 它们 的 访问 权限 。 
这 使 得 服务 器 能 正确 地 保护 它 的 对 象 ， 以 便 客户 相信 它 是 从 真实 的 服务 器 上 接收 到 的 结果 。 

。 安全 通道 确保 在 其 上 传送 的 数据 的 私密 性 和 完整 性 (防止 自 改 ) 。 

。 每 个 消息 包括 一 个 物理 的 或 逻辑 的 时 间 稚 以 防 消息 被 重 放 或 重 排序 。 








主体 4 主体 B 
\ 2 
ZADE 进程 9 

图 2-19 安全 通道 


构造 安全 通道 的 详细 讨论 见 第 11 章 。 安 全 通道 已 成 为 保护 电子 商务 和 通信 安全 的 一 个 重要 的 实用 
工具 。 虚 拟 私 网 (VPN， 见 第 3 章 的 讨论 ) 和 安全 套 接 字 (SSL) 协议 〈 见 第 11 章 的 讨论 ) 就 是 安全 
通道 的 实例 。 
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其 他 可 能 的 来 自 敌 人 的 威胁 1.5.3 节 简 要 介绍 了 两 个 安全 威胁 一 一 拒绝 服务 攻击 和 移动 代码 的 
部 署 。 作 为 敌人 破坏 进程 活动 的 可 能 的 机 会 ， 我 们 要 再 介绍 一 下 这 两 个 安全 威胁 。 

拒绝 服务 : 在 这 种 攻击 形式 下 ， 敌 人 通过 超 量 地 、 无 意义 地 调用 服务 或 在 网 络 上 进行 消息 传送 ， 
干扰 授权 用 户 的 活动 ， 导 致 物理 资源 〈 网 络 带宽 、 服 务 器 处 理 能 力 ) 的 过 载 。 这 种 攻击 通常 意 在 延迟 
或 阻碍 其 他 用 户 的 动作 。 例 如 ， 建 筑 物 中 的 电子 门 锁 可 能 由 于 受到 对 计算 机 控制 的 电子 锁 的 过 多 非法 
请 求 而 失效 。 

BARA, 如 果 进 程 接收 和 执行 来 自 其 他 地 方 的 程序 代码 〈 如 1. 5. 3 节 提 到 的 邮件 附件 ) ， 那 么 这 
些 移动 代码 就 会 带 来 新 的 、 有 趣 的 安全 问题 。 这 样 的 代码 很 容易 扮演 特洛伊 森马 的 角色 ， 声 称 完成 的 
是 无 害 的 事情 但 事实 上 包括 了 访问 或 修改 资源 的 代码 ， 这 些 资源 对 宿主 进程 是 合法 可 用 的 但 对 代码 的 
编写 者 是 不 合法 的 。 实 现 这 种 攻击 有 多 种 不 同 的 方法 ， 因 此 必须 非常 小 心地 构造 宿主 环境 以 避免 攻击 。 
其 中 的 大 多 数 问题 已 在 Java 和 其 他 移动 代码 系统 中 解决 了 ， 但 从 最 近 的 一 段 历 史 看 ， 移 动 代码 问题 暴 
露 了 一 些 让 人 容 迫 的 弱点 。 这 一 点 也 很 好 地 说 明了 所 有 安全 系统 的 设计 都 需要 严格 的 分 析 。 

安全 模型 的 使 用 有 人 认为 ， 在 分 布 式 系统 中 获得 安全 是 件 简单 的 事 ， 即 根据 预定 义 的 访问 权限 
控制 对 象 的 访问 以 及 通信 的 安全 通道 的 使 用 ， 但 是 通常 却 不 是 这 样 。 安 全 技术 《如 加 密 ) 和 访问 控制 
的 使 用 会 产生 实质 性 的 处 理 和 管理 开销 。 前 面 概述 的 安全 模型 提供 了 分 析 和 设计 安全 系统 的 基础 ， 其 
中 这 些 开 销 保持 最 少 ， 但 对 分 布 式 系统 的 威胁 会 在 许多 地 方 出 现 ， 需 要 对 系统 网 络 环境 、 物 理 环 境 和 
人 际 环境 中 所 有 可 能 引发 的 威胁 进行 仔细 的 分 析 。 这 种 分 析 涉 及 构造 威胁 模型 ， 由 它 列 出 系统 会 遭遇 
的 各 种 形式 的 攻击 、 风 险 评 估 和 每 个 威胁 所 造成 的 后 果 。 要 在 抵御 威胁 所 需 的 安全 技术 的 有 效 性 和 开 
销 之 间 做 出 权衡 。 


2.5 小 结 


如 2.2 节 所 展示 的 ， 从 底层 物理 特性 角度 ， 例 如 ， 系 统 的 规模 、 系 统 内 在 的 异 构 性 、 从 特性 角度 
(如 安全 ) 提供 端 到 端 解 决 方案 的 实际 需求 等 ， 分 布 式 系统 的 复杂 性 正在 增加 。 这 使 得 从 模型 角度 理 
解 和 探讨 分 布 式 系统 显得 更 加 重要 。 本 章 考 虑 了 底层 物理 模型 ， 并 深度 考察 了 支撑 分 布 式 系统 的 体系 
结构 模型 和 基础 模型 。 

本 章 从 所 包含 的 体系 结构 模型 角度 给 出 了 描述 分 布 式 系统 的 方法 ， 明 晰 了 这 个 设计 空间 的 内 涵 ， 包 
括 查看 什么 在 通信 以 及 这 些 实体 如 何 通信 等 核心 问题 ， 以 及 基于 给 定 物理 基础 设施 ， 考 虑 每 个 元 素 可 以 
扮演 的 角色 与 合适 的 放置 策略 ， 并 把 它们 补充 到 设计 中 去 。 本 章 还 介绍 了 体系 结构 模式 在 由 底层 核心 元 
E 〈 例 如 上 述 的 客户 - 服务 器 模型 ) 构造 复杂 设计 中 发 挥 的 关键 作用 ， 给 出 了 支持 分 布 式 系统 的 中 间 件 
解决 方案 的 主要 类 型 ， 包 括 基 于 分 布 式 对 象 、 组 件 、Web 服务 和 分 布 式 事件 的 解决 方案 。 

从 体系 结构 模型 角度 看 ， 客 户 - 服务 器 方法 是 一 种 常见 的 体系 结构 模型 一 一 Web 和 其 他 互联 网 服务 
(如 FTP、 新 闻 和 邮件 以 及 Web 服务 和 DNS) 均 基 于 这 个 模型 ， 文 件 归档 和 其 他 本 地 服务 也 是 如 此 。 像 DNS 
这 种 有 大 量 的 用 户 并 管理 大 量 信息 的 服务 是 基于 多 个 服务 器 的 ， 并 使 用 数据 分 区 和 复制 来 提高 可 用 性 和 容错 
能 力 。 客 户 和 代理 服务 器 上 的 缓存 得 到 广泛 使 用 以 提高 服务 的 性 能 。 不 过 ， 现 在 有 许多 方法 对 分 布 式 系统 
进行 建 模 ， 包 括 各 种 可 替代 的 观点 ， 如 对 等 计算 和 更 多 的 面向 问题 的 抽象 〔 如 对 象 、 组 件 或 服务 )。 

基础 模型 补充 了 体系 结构 模型 ， 它 们 帮助 从 诸如 性 能 、 可 靠 性 和 安全 角度 对 分 布 式 系统 的 特性 进 
行 推理 。 特 别 地 ， 我 们 给 出 了 交互 模型 、 故 障 模 型 和 安全 模型 。 它 们 识别 出 构造 分 布 式 系统 的 基本 组 
件 的 共同 特征 。 交 互 模型 关注 进程 和 通信 通道 的 性 能 以 及 全 局 时 钟 的 缺乏 。 它 将 同步 系统 看 成 在 进程 
执行 时 间 、 消 息 传递 时 间 和 时 钟 漂移 上 有 已 知 范围 的 系统 ， 将 异步 系统 看 成 在 进程 执行 时 间 、 消 息 传 
递 时 间 和 时 钟 漂移 上 没有 限制 的 系统 一 一 这 是 对 互联 网 行为 的 描述 。 

故障 模型 将 分 布 式 系统 中 的 进程 故障 和 基本 的 通信 通道 故障 进行 了 分 类 。 屏 项 是 一 项 技术 ， 依 靠 
它 ， 可 将 不 太 可 靠 的 服务 中 的 故障 加 以 屏蔽 ， 并 基于 此 构造 出 较 可 靠 的 服务 。 特 别 是 ， 通 过 屏蔽 基本 
的 通信 通道 的 故障 ， 可 从 基本 的 通信 通道 构造 出 可 靠 的 通信 服务 。 例 如 ， 遗 漏 故障 可 通过 重 传 丢失 的 
消息 加 以 屏蔽 。 完 整 性 是 可 靠 通信 的 一 个 性 质 一 一 它 要 求 接收 到 的 消息 与 发 送 的 消息 一 致 ， 并 且 没有 
消息 被 发 送 两 次 。 有 效 性 是 可 靠 通信 的 另 一 个 性 质 一 一 它 要 求 发 送 消息 缓冲 区 中 的 任何 消息 最 终 都 能 
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传递 到 接收 消息 缓冲 区 。 

安全 模型 可 识别 出 在 一 个 开放 的 分 布 式 系统 中 对 进程 和 通信 通道 可 能 的 威胁 。 有 些 威胁 与 完整 性 
AR: 恶意 用 户 可 能 自 改 消息 或 重 放 消 息 。 其 他 的 威胁 则 会 损害 私密 性 。 另 一 个 安全 问题 是 发 送 消息 
所 代表 的 主体 〈 用 户 或 服务 器 ) 的 认证 。 安 全 通道 使 用 密码 技术 来 确保 消息 的 完整 性 和 私密 性 ， 并 使 
得 相互 通信 的 主体 可 以 进行 验证 。 


练习 


2.1 提供 三 个 具体 的 、 不 同 的 例子 ， 说 明 在 2. 2 节 定 义 的 当代 分 布 式 系统 中 蜡 构 性 的 增加 。 (第 39 页 ) 
2.2 在 通信 实体 之 间 的 直接 耦合 ， 你 能 预见 到 什么 问题 ? 这 些 问题 在 远程 调用 方案 中 是 隐 含 的 。 你 期 望 时 空 
分 离 所 提供 的 解 耦合 其 有 什么 优势 ? 注意 ， 你 可 能 需要 在 阅读 第 5 章 和 第 6 章 后 再 来 寻求 答案 。 


(第 43 页 ) 

2.3 描述 一 个 或 多 个 主要 的 互联 网 应 用 〈 如 Web、 电 子 邮 件 或 网 络 新 闻 ) 的 客户 -服务 器 体系 结构 并 给 
出 图 示 。 (第 46 W) 

2.4 对 于 练习 2. 1 中 描述 的 应 用 ， 在 实现 相关 服务 适合 采用 什么 放置 策略 ? 《第 48 页 ) 


2.5 搜索 引擎 是 一 个 Web 服务 器 ， 它 响应 客户 的 请 求 ， 在 它 存储 的 索引 中 查找 ， 并 【同时 ) 运行 几 个 
Web 抓 取 任务 来 创建 和 更 新 索引 。 在 这 些 并 发 的 当前 活动 之 间 进 行 同步 的 需求 是 什么 ? (5546 页 ) 
2.6 在 对 等 系统 中 使 用 的 主机 通常 只 是 用 户 办 公 室 或 家 里 的 计算 机 。 对 共享 数据 对 象 的 可 用 性 和 安全 性 而 


言 ， 这 意味 着 什么 ? 通过 使 用 复制 能 多 大 程度 上 克服 这 些 弱点 ? (第 47 页 ,第 48 页 ) 
27 列 出 易 受 不 可 靠 程序 〈 从 远程 站 点 下 载 并 在 本 地 运行 的 程序 ) 攻击 的 本 地 资源 的 类 型 。 (第 50 页) 
2.8 通过 应 用 实例 说 明 使 用 移动 代码 的 好 处 。 (3% 50 页 ) 


2.9 考虑 一 个 假想 的 汽车 出 租 公司 ， 画 出 一 个 三 层 解决 方案 ， 提 供 基本 的 分 布 式 汽车 出 租 服务 。 用 这 个 来 
说 明 三 层 解 决 方案 的 好 处 和 缺点 ,考虑 诸如 性 能 、 可 伸缩 性 、 故 障 处 理 、 软 件 长 期 维护 等 问题 。 

(38 52 页 ) 

2. 10 ”提供 一 个 具体 的 例子 ， 说 明 在 为 分 布 式 应 用 提供 中 间 件 支持 方面 ，Saltzer 的 端 到 端 争论 所 提 及 的 困 

境 〈 你 可 以 关注 提供 可 靠 分 布 式 系统 的 一 个 方面 ， 例 如 ， 与 容错 或 安全 相关 的 方面 )。 第 60 页 ) 

2.11 设计 一 个 简单 的 服务 器 ， 它 不 用 访问 其 他 服务 器 就 可 完成 客户 请 求 。 解 释 为 什么 它 通常 不 可 能 对 服 

务 器 响应 客户 请 求 的 时 间 设 置 限制 。 需 要 怎样 做 才能 使 服务 器 可 以 在 一 定时 间 范 围 内 执行 请 求 ? 这 


是 一 个 实用 的 选择 吗 ? 〈 第 62 页 ) 
2. 12 ”针对 影响 通信 通道 上 的 两 个 进程 之 间 传 递 消息 所 花 的 时 间 的 各 个 因素 ， 说 明 需 要 对 哪些 影响 总 时 间 
的 度量 设置 限制 。 为 什么 在 当前 通用 的 分 布 式 系统 中 不 提供 这 些 度量 ? (第 63 页 ) 
2.13 网络 时 间 协 议 服 务 能 用 于 同步 计算 机 时 钟 ， 解 释 为 什么 即使 使 用 该 服务 ， 也 不 能 对 两 个 时 钟 之 间 的 
不 同 给 出 确定 的 范围 。 (第 64 页 ) 


2.14 考虑 在 异步 分 布 式 系统 中 使 用 的 两 个 通信 服务 。 在 服务 A 中 ， 消 息 可 能 丢失 、 被 复制 或 延迟 ， 校 验 
和 仅 应 用 于 消息 头 。 在 服务 B 中 ， 消 息 可 能 丢失 、 延 迟 或 传递 得 太 快 以 致 接收 方 无 法 处 理 它 ， 但 到 
达 目 的 地 的 消息 的 内 容 一 定 正 确 。 

描述 上 面 两 个 服务 会 出 现 的 故障 类 型 ， 根 据 它们 对 有 效 性 和 完整 性 的 影响 为 故障 分 类 。 服 务 B 
能 被 描述 成 可 靠 的 通信 服务 吗 ? (第 67 页 , 第 71 页 ) 
2.15 有 一 对 进程 X 和 Y， 它 们 使 用 练习 2. 14 中 的 通信 服务 B 相互 通信 。 假设 X 是 客户 而 Y 是 服务 器 ， 
一 个 调用 始 于 X 到 立 的 请 求 消息 ， 然 后 站 执行 该 请 求 ， 最 后 从 站 向 X 发 送 应 管 消息 。 思 考 这 样 一 个 
调用 会 出 现 的 故障 类 型 。 (58 67 W) 
2.16 ”假设 一 个 基本 的 磁盘 读 操 作 有 时 读 取 的 值 与 写 人 的 值 不 同 。 叙 述 基本 的 磁盘 读 操 作 会 出 现 的 故障 类 
型 。 同 述 如 何 屏 藏 故障 以 产生 另 一 种 良性 故障 ， 并 对 如 何 屏蔽 和 良性 故障 提出 建议 。 (第 70 页 ) 
2. 17 定义 可 靠 通信 的 完整 性 ， 列 出 所 有 来 自用 户 和 系统 组 件 的 对 完整 性 的 可 能 的 威胁 。 面 对 每 种 威胁 ， 
要 采取 什么 手段 确保 完整 性 ? (第 71 页 , 第 74 页 ) 

2.18 ”描述 可 能 出 现在 互联 网 上 的 几 类 主要 的 安全 威胁 类 型 (对 进程 的 威胁 、 对 通信 通道 的 威胁 、 服 务 拒绝 ) 。 
(第 74 页 , 第 75 页 ) 
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网 络 和 网 际 互 连 


分 布 式 系统 使 用 局 域 网 、 广 域 网 和 互连网 络 进行 通信 。 底 层 网 络 的 性 能 、 可 靠 性 、 可 伸缩 性 、 移 
动 性 以 及 服务 质量 特征 都 影响 着 分 布 式 系统 的 行为 ， 因 而 也 影响 这 些 系 统 的 设计 。 为 适应 用 户 需求 的 
改变 ， 无 线 网 络 和 有 服务 质量 保障 的 高 性 能 网 络 应 运 而 生 。 

计算 机 网 络 所 基于 的 原理 包括 协议 分 层 、 包 交换 、 路 由 以 及 数据 流 等 ， 网 际 互 连 技术 使 得 异 构 网 
络 可 以 集成 在 一 起 。 互 联网 就 是 一 个 重要 的 例子 。 它 的 协议 广泛 地 应 用 于 分 布 式 系统 中 。 互 联网 中 使 
用 的 寻 址 以 及 路 由 方案 经 受 了 互联 网 快速 成 长 所 带 来 的 影响 。 它 们 也 被 不 断 地 修正 ， 以 适应 未 来 的 发 
展 并 满足 新 的 对 移动 性 、 安 全 性 以 及 服务 质量 的 需求 。 

在 实例 研究 中 将 给 出 特定 网 络 的 技术 设计 ， 包 括 以 太 网 、IEEE 802.11 (WiFi) 和 蓝牙 无 线 网 络 。 


3.1 简介 


要 构建 分 布 式 系统 所 使 用 的 网 络 ， 首 先 需要 众多 的 传输 介质 ， 包 括 电线 、 电 缆 、 光 纤 以 及 无 线 频 
道 ; 然后 需要 一 些 硬件 设备 ， 包 括 路 由 器 、 交 换 机 、 网 桥 、 集 线 器 、 转 发 器 和 网 络 接口 ; 最 后 还 需要 
软件 组 件 ， 包 括 协议 栈 、 通 信 处 理 器 和 了 驱动器。 上 述 因 素 都 会 影响 分 布 式 系统 和 应 用 程序 所 能 达到 的 
最 终 功能 和 性 能 。 我 们 把 为 分 布 式 系统 提供 通信 设施 的 软 硬 件 组 件 称 为 通信 子 系 统 。 计 算 机 和 其 他 使 
用 网 络 进行 通信 的 设备 称 为 主机 。 结 点 则 指 的 是 在 网 络 上 的 所 有 计算 机 或 者 交换 设备 。 

互联 网 是 一 个 通信 子 系 统 ， 它 为 所 有 接 入 的 主机 提供 通信 服务 。 互 联网 连接 了 大 量 采用 不 同 网 络 
技术 的 子 网 。 一 个 子 网 是 一 个 路 由 单位 (负责 在 互联 网 不 同 部 分 之 间 传 递 数据 ) ， 它 包含 一 组 互 连 的 
结 点 ， 它 们 之 间 采 用 相同 的 技术 进行 通信 。 互 联网 的 基础 设施 包括 体系 结构 和 软 硬 件 组 件 ， 它 们 将 不 
同 的 子 网 有 效 地 集成 为 一 个 数据 通信 服务 。 

通信 子 系统 的 设计 在 很 大 程度 上 受 组 成 分 布 式 系统 的 计算 机 所 使 用 的 操作 系统 的 特征 的 影响 ， 也 
受 与 之 互 连 的 网 络 的 影响 。 本 章 将 探讨 网 络 技术 对 通信 子 系统 的 影响 ， 操 作 系统 问题 将 在 第 7 章 讨论 。 

本 章 将 从 分 布 式 系统 的 通信 需求 角度 ， 对 计算 机 网 络 加 以 概述 。 不 熟悉 计算 机 网 络 的 读者 应 该 将 
本 章 作为 本 书后 续 内 容 的 基础 ， 而 熟悉 网 络 的 读者 也 会 发 现 本 章 对 计算 机 网 络 的 诸多 方面 进行 了 总 结 。 

计算 机 发 明 后 不 久 ， 人 们 就 有 了 计算 机 网 络 的 构想 。1961 年 ，Leonard Kleinrock [1961] 第 一 次 在 
一 篇 文章 中 提出 了 包 交 换 的 理论 基础 。1962 4E, J.C. R. Licklider 和 W. Clark (20 世纪 60 年 代 初 期 在 
MIT 参加 第 一 个 分 时 系统 的 开发 ) 在 一 篇 论文 中 讨论 了 交互 计算 和 广域网 络 的 巨大 潜能 ， 这 在 某 些 方 
面 预示 了 互联 网 的 将 来 [DEC 1990], 。1964 年 ，Paul Baran 描绘 出 了 一 个 可 靠 、 有 效 的 广域网 的 实用 设 
计 的 轮廓 [Baran 1964] 。 更 多 的 有 关 计 算 机 网 络 和 互联 网 历史 的 资料 和 链接 可 以 在 下 列 资源 中 找到 
[ www. isoc. org, Comer 2007, Kurose and Ross 2007 ] 。 

本 节 后 面 的 部 分 将 讨论 分 布 式 系统 的 通信 需求 。3. 2 节 将 对 网 络 类 型 进行 概括 ，3. 3 节 将 介绍 计算 
机 网 络 原理 ，3.4 节 将 专门 讨论 互联 网 。3. 5 节 将 给 出 有 关 以 太 网 、IEEE 802.11 (WiFi) 、 蓝 牙 网 络 技 
术 的 实例 研究 。 


分 布 式 系统 的 连 网 问题 


早期 的 计算 机 网 络 只 能 满足 少量 的 、 相 对 简单 的 应 用 需求 ， 支 持 像 文件 传输 、 远 程 登录 、 电 子 邮 
件 、 新 闻 组 这 样 的 网 络 应 用 。 随 着 分 布 式 系统 的 不 断 发 展 ,分 布 式 应 用 程序 能 访问 共享 的 文件 或 其 他 
资源 。 为 满足 交互 应 用 的 需求 ， 必 须 提出 更 高 的 性 能 标准 。 

近来 ， 随 着 互联 网 的 发 展 和 商业 化 以 及 多 种 新 的 使 用 模式 的 出 现 ， 对 于 网 络 可 靠 性 、 可 伸缩 性 、 
移动 性 、 安 全 性 和 服务 质量 担 出 了 更 高 要 求 。 本 节 将 详细 介绍 这 些 需求 的 本 质 。 

性 能 “我 们 感 兴趣 的 网 络 性 能 参数 是 影响 两 个 互 连 计算 机 间 消 息 传输 速度 的 参数 ， 即 延迟 和 所 到 





第 3 章 网 络 和 网 际 互 连 


点 的 数据 传输 率 。 

延迟 是 指 执行 发 送 操作 之 后 和 数据 到 达 目 标 计算 机 之 前 这 一 段 时 间 。 它 可 以 用 传输 一 个 空 消息 的 
时 间 来 度量 。 这 里 我 们 只 考虑 网 络 延 迟 ， 它 是 2. 4 1 节 定 义 的 进程 - 进程 延迟 的 一 部 分 。 

数据 传输 率 是 指 一 旦 传输 过 程 开始 ， 数 据 在 网 络 上 两 台 计 算 机 间 传 输 的 速度 ， 通 常用 bits (E 
特 / 秒 ) 作为 单位 。 

根据 上 述 定义 ， 要 在 两 个 计算 机 间 传 输 长 度 为 length 比特 的 消息 ， 网 络 所 需 的 时 间 为 : 

消息 传输 时 间 = 延迟 +length/ 数 据 传输 率 

上 式 还 需 满足 以 下 条 件 : 消息 长 度 不 能 超过 网 络 所 允许 的 最 大 值 。 长 消息 会 被 分 割 成 多 个 段 ， 传 
输 时 间 是 多 个 段 传输 时 间 的 总 和 。 

网 络 的 传输 率 主要 是 由 它 的 物理 特征 决定 的 ， 而 延迟 则 主要 由 软件 开销 、 路 由 延迟 和 与 负载 有 关 
-的 统计 因素 〈 源 于 访问 传输 信道 的 冲突 性 命令 ) 决定 。 在 分 布 式 系统 的 进程 之 间 传 送 的 许多 消息 的 规 
模 很 小 ， 因 此 延迟 在 决定 性 能 上 与 数据 传输 率 有 相同 或 更 重要 的 意义 。 

网 络 的 系统 总 带宽 是 度量 吞吐 量 的 指标 ， 它 表示 在 给 定 的 时 间 内 网 络 可 以 传输 的 数据 总 量 。 在 许 
多 局 域 网 技术 中 〈 如 以 太 网 ) ， 每 一 次 数据 传输 都 使 用 了 整个 网 络 的 传输 容量 ， 这 时 系统 的 带宽 也 就 
是 数据 传输 率 。 但 在 大 部 分 广域网 中 ， 消 息 可 以 同时 在 几 个 不 同 的 信道 中 传输 ， 这 时 系统 总 带宽 和 传 
输 率 没有 直接 的 关系 。 但 是 ， 在 网 络 过 载 时 网 络 性 能 会 恶化 ,过载 是 指 同时 在 网 络 中 传输 的 消息 过 多 。 
过 载 给 网 络 的 延迟 、 数 据 传输 率 以 及 系统 总 带宽 所 带 来 的 影响 与 网 络 技术 紧密 相关 。 

现在 考虑 客户 - 服务 器 通信 的 性 能 。 在 负载 较 轻 的 本 地 网 环境 (包括 系统 开销 ) 下 ， 结 点 之 间 传 
输 一 个 短 的 请 求 消息 和 收 到 一 个 短 的 应 答 的 总 时 间 通 常 在 0. 5ms 左右 ; 而 调用 一 个 本 地 内 存 中 的 应 用 
层 对 和 象 的 操作 ， 所 需 的 时 间 在 微 秒 以 内 。 因 此 ， 尽 管 网 络 性 能 提高 了 ， 在 本 地 网 中 访问 共享 资源 的 时 
间 依 然 要 比 访问 本 地 内 存 中 的 已 有 资源 慢 1000 倍 以 上 。 但 是 网 络 的 访问 性 能 经 常 超越 硬盘 :对 于 经 由 
网 络 访问 一 个 本 地 的 Web 服务 器 或 者 文件 服务 器 而 言 ， 将 经 常 使 用 的 文件 放 人 一 个 大 的 缓存 ， 其 性 能 
通常 可 以 达到 或 超过 直接 访问 本 地 硬盘 文件 的 性 能 。 

信息 在 互联 网 上 往返 的 延迟 在 5 ~ 500ms 之 间 ， 因 传输 距离 不 同 ， 其 平均 值 为 20 ~ 200ms 
[ www. globalcrossing. net], ， 所 以 在 互联 网 上 传送 请 求 比 在 快速 本 地 网 络 上 传送 大 约 慢 10 ~ 100 倍 。 这 个 
时 间 差 缘 于 路 由 器 的 交换 延迟 和 网 络 电路 的 竞争 。 

7.5.1 节 将 详细 讨论 并 比较 本 地 操作 和 远程 操作 的 性 能 问题 。 

可 伸缩 性 ”计算 机 网 络 已 成 为 现代 社会 不 可 缺少 的 基础 设施 。 图 1-6 显示 了 截至 2005 年 的 近 12 年 
来 连 人 互联 网 的 计算 机 主机 数量 的 增长 情况 。 此 后 ， 因 计算 机 主机 数 增长 太 快 以 至 于 无 法 给 出 准确 的 
统计 数据 。 未 来 互联 网 的 大 小 将 可 能 和 地 球 上 人 口 数量 相当 ， 到 那 时 网 络 上 将 有 数 十 亿 的 结 点 和 上 亿 
可 用 的 主机 。 

这 些 数 字 表 明了 互联 网 必须 能 够 处 理 未 来 在 数量 和 负载 上 的 变化 ， 目 前 的 网 络 技术 甚至 不 能 很 好 
地 应 付 现在 的 网 络 规模 ; 但 它们 已 经 表现 得 相当 不 错 了 。 为 了 适应 互联 网 下 一 阶段 的 发 展 ， 技 术 人 员 
正在 对 寻 址 和 路 由 机 制 进行 一 些 实质 性 的 改变 ， 这 方面 内 容 将 在 3.4 节 加 以 讨论 。 对 于 简单 的 客户 - 
服务 器 应 用 (例如 Web)， 未 来 的 数据 流量 的 增长 至 少将 和 上 网 用 户 数量 成 正比 。 互 联网 基础 设施 的 
能 力 是 否 能 适应 这 样 的 增长 ， 必 须 依 赖 经 济 学 的 使 用 ， 特 别 是 在 对 用 户 的 收费 和 实际 发 生 的 通信 模式 
方面 一 一 例如 应 根据 用 户 的 位 置 范围 做 某 种 处 理 。 

AME 在 2.4.2 节 关于 故障 模型 的 讨论 描述 了 通信 和 错误 所 带 来 的 影响 。 许 多 应 用 可 以 从 通信 故 
障 中 恢复 ， 因 此 并 不 要 求 保证 无 错 通信 。 端 对 端 争论 (参见 2.3.3 节 ) 也 进一步 支持 了 “通信 子 系统 
无 需 提 供 完全 无 错 的 通信 ”这 一 观点 ， 通 信和 错误 的 检测 和 校正 通常 由 应 用 级 软件 完成 。 大 多 数 物 理 传 
输 介质 的 可 靠 性 很 高 。 错 误 通 常 是 由 于 发 送 方 或 接收 方 的 软件 故障 (例如 ， 接 收 方 计算 机 未 能 接收 到 
一 个 包 ) 或 者 缓冲 溢出 造成 的 ， 而 不 是 网 络 错误 造成 的 。 

安全 性 第 11 章 将 列 出 分 布 式 系统 获得 安全 性 所 需 的 需求 和 技术 。 大 多 数组 织 采 用 的 第 一 层 防 御 
是 为 他 们 的 网 络 和 计算 机 设置 一 个 防火 墙 。 防 火 墙 在 组 织 的 内 部 网 和 互联 网 之 间 创 建 了 一 个 保护 的 边 
界 ， 其 目的 是 保护 组 织 中 所 有 计算 机 上 的 资源 不 被 外 部 用 户 或 进程 访问 ， 并 控制 组 织 中 的 用 户 使 用 防 
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火 墙 外 的 资源 。 

防火 墙 在 网 关上 运行 ， 所 谓 网 关 是 企业 内 部 网 人 口 点 处 的 计算 机 。 防 火 墙 接收 并 且 过 滤 所 有 进出 
该 组 织 的 消息 。 防 火 墙 通常 按照 组 织 的 安全 策略 进行 配置 ， 人 允许 某 些 进 入 或 流出 的 消息 通过 并 拦 蕉 其 
他 消息 。 这 个 内 容 我 们 将 在 3. 4. 8 节 中 继续 讨论 。 

为 了 证 分 布 式 应 用 在 防火 墙 的 限制 下 依然 可 以 执行 ,我 们 需要 建立 一 个 安全 的 网 络 环境 ， 使 得 大 
部 分 分 布 式 应 用 可 以 被 部 署 ， 且 具有 端 对 端的 认证 、 私 密 性 和 安全 性 。 使 用 密码 技术 可 达到 这 种 细 粒 
度 的 且 更 灵活 的 安全 形式 。 它 通常 应 用 于 通信 子 系统 以 上 的 层次 ， 因 此 不 在 这 里 讨论 ， 而 是 在 第 7 章 
进行 讨论 。 但 也 有 一 些 例外 的 要 求 ， 包 括 保 护 网 络 组 件 〈 如 路 由 器 ) 的 操作 不 会 受到 未 授权 的 干涉 ， 
对 移动 设备 和 其 他 外 部 结 点 建立 安全 链接 以 便 它 们 能 参与 到 一 个 安全 的 企业 内 部 网 一 一 虚拟 私 网 
(VPN) 的 概念 ，VPN 将 在 3.4.8 节 讨 论 。 

移动 性 ”移动 设备 〈 如 笔记 本 电脑 、PDA 和 可 连 网 的 移动 电话 ) 常常 改变 所 处 的 位 置 ， 可 以 在 方 
便 的 网 络 连 接 处 重新 连 入 ， 甚 至 在 移动 的 时 候 使 用 。 虽 然 无 线 网 络 提供 了 对 这 些 设备 的 连接 ， 但 互联 
网 的 寻 址 和 路 由 机 制 都 是 在 移动 设备 出 现 之 前 开发 的 ， 并 不 太 适 合 与 不 同 子 网 进行 间歇 连接 的 需求 。 
虽然 互联 网 机 制 已 经 有 所 改进 并 被 扩展 来 支持 移动 性 ,但 随 着 未 来 移动 设备 使 用 数量 的 增长 ， 还 必须 
进行 更 进一步 地 开发 。 

服务 质量 第 1 章 中 ,我 们 把 服务 质量 定义 为 “在 传输 和 处 理 实 时 多 媒体 数据 流 时 满足 期 限 要 求 
的 能 力 ”"。 这 也 给 计算 机 网 络 提出 了 新 的 要 求 。 传 输 多 媒体 数据 的 应 用 要 求 所 使 用 的 通信 通道 有 足够 的 
带宽 和 并 对 延迟 有 所 限制 。 一 些 应 用 能 动态 地 改变 它们 的 要 求 ， 并 指定 可 接受 的 最 低 服务 质量 和 期 望 
的 最 佳 值 。 第 20 章 将 讨论 如 何 提供 这 些 保证 和 相关 的 维护 。 

AG “分布 式 系统 中 大 部 分 的 通信 征 在 一 对 进程 之 间 进 行 的 ， 但 也 经 常 有 一 对 多 通信 的 需求 。 显 
然 这 可 以 用 向 多 个 地 址 发 送 来 模拟 ， 但 这 种 方式 所 花 的 代价 比 真 正 需要 花费 的 代价 要 大 ， 而 且 也 不 具 
备 应 用 所 需 的 容错 性 。 因 为 这 些 原 因 ， 许 多 网 络 技术 都 支持 同时 向 多 个 接收 方 传递 消息 。 


3.2 网 络 类 型 


本 节 介 绍 主要 用 于 支持 分 布 式 系统 的 两 络 类 型 :个 域 网 、 局 域 网 、 广 域 网 、 城 域 网 以 及 它们 的 无 
线 变 体 。 互 连 网 络 〈 如 互联 网 ) 是 基于 这 些 类 型 的 网 络 构造 出 来 的 。 图 3-1 给 出 了 下 面 讨论 的 各 种 网 











络 的 性 能 特征 。 

| 实 a 范 m 带 宽 (Mbps) 4E (ms) 
AR: 
LAN 以 太 网 1 ~2km 10 ~ 1000 1~10 
WAN IP 路 由 世界 范围 0. 010 ~ 600 100 ~ 500 
MAN ATM 2 ~ 50km 1 ~600 10 
互连网 络 互联 网 世界 范围 0.5 ~600 100 ~ 500 
AR: 
WPAN 蓝牙 (IEEE 802. 15.1) 10 ~30m 0.5 ~2 5 ~20 
WLAN WiFi (IEEE 802. 11) 0.15 ~1. 5km 11 ~108 5 ~20 
WMAN WiMAX (IEEE 802. 16) 5 ~50km 1.5 ~20 5 ~20 

| WWAN 3G 电话 网 cell; 1 ~5km 0. 348 ~14.4 100 ~ 500 














图 3-1 网 络 性 能 


一 些 网 络 类 型 的 名 字 经 常会 被 混淆 ， 因 为 它们 看 上 去 指 的 是 物理 范畴 (局 域 、 广 域 )， 其 实 它们 
也 确定 了 物理 传输 技术 和 底层 的 协议 。 对 于 局 域 网 和 广域网 来 说 ， 这 些 方面 是 不 一 样 的 ， 尽 管 一 些 网 
络 技 术 ， 如 ATM (异步 传输 模式 ) 既 适 用 于 局 域 网 又 适用 于 广域网 ， 一 些 无 线 网 络 也 同时 支持 局 域 网 
和 城 域 网 传输 。 

我 们 把 由 很 多 互 连 的 网 络 组 成 ， 并 且 集 成 起 来 提供 单一 数据 通信 介质 的 网 络 称 为 互连网 络 。 互 联 
网 就 是 典型 的 互连网 络 ， 它 由 数 百 万 的 局 域 网 、 城 域 网 和 广域网 组 成 。 我 们 将 在 3. 4 节 详 细 描述 它 的 
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实现 。 

个 域 网 ”个 域 网 (Personal Area Network, PAN) 是 本 地 网 的 子 类 ， 其 中 一 个 用 户 携带 的 各 种 数字 
设备 由 一 个 廉价 、 低 能 量 网 络 连接 起 来 。 有 线 PAN 不 是 太 重 要 ， 因 为 很 少 有 用 户 希 望 自 己 身上 有 有 线 
网 络 ， 但 由 于 移动 电话 、PDA、 数 码 相 机 、 音 乐 播放 器 等 个 人 设备 数量 的 增加 ， 无 线 个 域 网 (WPAN) 
的 重要 性 也 随 之 增加 。 我 们 将 在 3. 5. 3 节 描 述 蓝牙 WPAN。 

局 域 网 ”局域网 (Local Area Network, LAN) 在 由 单一 通信 介质 连接 的 计算 机 之 间 以 相对 高 的 速 
度 传输 消息 ， 这 里 的 通信 介质 包括 双 绞 线 、 同 轴 电 缆 和 光纤 。 网 段 是 指 为 某 个 部 门 或 者 一 个 楼 层 中 很 
多 计算 机 服务 的 那 部 分 电缆 。 在 段 中 ， 消 息 不 需要 路 由 ， 因 为 网 段 中 的 计算 机 都 有 直接 的 连接 。 整 个 
系统 的 带宽 由 连接 在 网 段 范围 内 的 计算 机 共享 。 大 一 些 的 局 域 网 ， 比 如 校园 网 或 者 办 公 楼 中 的 网 络 ， 
由 许多 网 段 组 成 ， 段 之 间 通 过 交换 机 或 集线器 互 连 (〈 详 见 3.3.7 节 ) 。 对 于 局 域 网 来 说 ， 除 了 消息 流量 
很 大 的 时 候 ， 系 统 总 带宽 很 高 ， 而 延迟 时 间 很 短 。 

20 世纪 70 年 代 ， 人 们 开发 了 多 种 局 域 网 技术 一 一 以 太 网 、 令 牌 环 和 有 覃 环形 网 ， 这 些 技术 都 提 
供 了 有 效 和 高 性 能 的 解决 方案 ， 但 最 终 以 太 网 成 为 有 线 局 域 网 的 主导 技术 。 它 产生 于 20 世纪 70 年 代 
的 早期 ， 当 时 的 带宽 是 10Mbps (每 秒 100 万 比特 ) ， 最 近 扩展 为 100Mbps 和 1000Mbps (每 秒 1G 比 
特 ) 。 以 太 网 操作 的 原理 将 在 3. 5.1 节 中 加 以 描述 。 

局 域 网 的 适用 性 很 强 ， 它 可 以 在 几乎 所 有 的 工作 环境 中 工作 ， 只 和 需 有 一 两 全 以 上 的 个 人 计算 机 或 
者 工作 站 ， 它 们 的 性 能 对 实现 分 布 式 系 统 和 应 用 来 说 已 经 足够 了 。 以 太 网 技术 缺乏 许多 多 媒体 应 用 所 
需 的 延迟 和 带宽 保证 ,但 ATM 网 络 的 开发 填补 了 这 个 空白 ， 但 它们 昂贵 的 开销 限制 了 它们 在 局 域 网 应 
用 中 的 使 用 。 而 高 速 以 太 网 采用 交换 模式 加 以 部 署 ， 在 很 大 程度 上 克服 了 人 上述 缺点 ， 虽 然 它 的 有 效 性 
不 如 ATM 网 络 。 

广域网 广域网 (Wide Area Network, WAN) 在 属于 不 同 组 织 以 及 可 能 被 远 距 离 分 隔 开 的 结 点 之 
间 以 较 低 速度 传递 消息 。 这 些 结 点 可 能 分 布 在 不 同 的 城市 、 国 家 甚至 不 同 的 洲 。 其 通信 介质 是 连接 专 
用 计算 机 ( 称 为 路 由 器 ) 的 通信 电路 。 路 由 器 管理 整个 通信 网 络 ， 并 将 消息 或 数据 包 路 由 到 指定 的 地 
点 。 在 大 多 数 的 网 络 中 ， 路 由 操作 在 每 个 路 由 点 都 引进 了 一 定 的 延迟 ， 因 此 消息 传送 总 的 延迟 取决 于 
消息 经 过 的 路 由 和 消息 经 过 的 网 络 段 的 流量 负载 。 在 如 今 的 网 络 中 ， 这 些 延 迟 可 能 达到 0. 1 ~0.5s。 大 
多 数 介 质 的 电信 号 速度 接近 光速 ， 这 就 给 长 距离 网 络 的 传输 延迟 设置 了 一 个 下 限 。 举 例 来 说 ， 一 个 信 
号 从 欧洲 到 澳大利亚 通过 陆路 连接 的 传播 时 间 大 约 是 0. 13s， 而 地 球 表面 上 任意 两 个 点 之 间 经 过 地 球 同 
步 卫 星 传输 的 信号 有 大 约 0. 20s 的 延迟 。 

互联 网 上 可 用 的 带宽 也 变化 很 大 。 在 部 分 互联 网 上 速度 可 以 达到 600Mbps， 但 通常 情况 下 ， 传 输 
大 量 数据 的 速度 还 是 1 ~ 10Mbps。 

城 域 网 “ 城 域 网 (Metropolitan Area Network, MAN) 基于 城镇 或 城市 里 高 带宽 的 钢 线 和 光纤 电缆 ， 
在 50km 的 范围 内 传输 视频 、 音 频 或 者 其 他 数据 。 人 们 已 经 使 用 了 多 种 技术 来 实现 在 MAN 中 的 数据 的 
路 由 ， 例 如 ， 从 以 太 网 到 ATM, 

以 目前 在 许多 城市 可 用 的 DSL (数字 用 户 线 ) 和 电缆 调制 解 调 器 连接 为 例 。DSL 通常 使 用 电话 交 
换 系 统 中 的 ATM 交换 机 (在 已 有 的 用 于 电话 连接 的 电线 上 用 高 频 信 号 ) 将 双 绞 线 上 的 数字 信号 以 大 约 
1 ~10Mbps 的 速度 路 由 到 用 户 的 家 或 办 公 室 中 。 因 为 DSL 用 户 连接 使 用 的 是 双 绞 线 ， 所 以 限制 用 户 和 
交换 机 的 距离 要 在 5. 5km 之 内 。 电 缆 调 制 解 调 器 连接 是 在 同 轴 电 缆 架 构 的 有 线 电视 网 络 上 使 用 模拟 信 
号 传输 ， 速 度 可 以 达到 15Mbps， 其 范围 大 大 地 超过 了 DSL, 

DSL 实际 上 代表 了 包括 ADSL ( 即 非 同步 数字 用 户 线 ) 的 一 类 xDSL 技术 。 近 来 的 VDSL 和 VDSI2 
(Very High Bit Rate DSL) 的 速度 可 达到 100Mbps， 设 计 用 来 支持 高 清 电视 的 多 媒体 传输 。 

无 线 局 域 网 “无线 局 域 网 (Wireless Local Area Network, WLAN) 用 于 替代 有 线 LAN ， 为 移动 设备 
提供 连接 ， 或 者 说 ， 使 得 家 里 和 办 公 楼 内 的 计算 机 不 需要 有 线 的 基础 设施 就 能 相互 连接 并 连 到 互联 网 
上 。 它 们 都 是 广泛 使 用 的 IEEE 802. 11 标准 (WiFi) 的 变 体 ， 在 1. Skm 范围 内 提供 10 ~ 100Mbps 的 带 
宽 。3. 5.2 节 将 给 出 这 些 方法 的 详细 介绍 。 

无 线 城 域 网 IEEE 802.16 WiMAX 标准 针对 这 类 网 络 。 无 线 城 域 网 (Wireless Metropolitan Area 
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Network, WMAN) 旨 在 替换 家 庭 和 办 公 楼 中 的 有 线 连接 ， 并 在 某 些 应 用 中 超越 802. 11 WiFi 网 络 。 

无 线 广域网 。 无线 广 域 网 (Wireless Wide Area Network, WWAN) 大 部 分 移动 电话 网 络 基于 数字 无 
线 网 络 技 术 ， 如 世界 上 大 部 分 国家 采用 的 GSM (全 球 移动 通信 系统 ) 标准 。 移 动 电话 网 络 通过 使 用 蜂 
窝 无 线 连接 可 在 广阔 的 地 域 〈 通 常 是 整个 国家 或 整个 大 洲 ) 上 和 运行， 它们 的 数据 传输 设施 为 便携 设备 
提供 了 到 互联 网 的 广 域 移动 连接 。 上 述 蜂 帘 网 络 提供 的 数据 传输 率 相对 较 低 ， 只 有 9.6 ~ 33kbps， 而 
“第 三 代 ”(3G) 移动 电话 网 络 的 数据 传输 率 在 静止 状态 下 可 达到 2 ~ 14. 4kbps， 移 动 状态 下 (如 车 
Al) 可 达到 348Kbps 的 数据 传输 率 。 其 底层 技术 是 全 球 移动 通信 系统 (Universal Mobile Telecommunica- 
tions System，UMTS ) 。 全 球 移 动 通信 系统 已 经 朝 着 4G 网 络 演化 ， 其 数据 传输 率 可 达到 100Mbps。 对 移 
动 和 无 线 网 络 领域 快速 发 展 的 技术 感 兴趣 的 读者 可 参考 Stojmenovic 的 手册 [2002] 。 

互连网 络 互连网 络 是 一 个 通信 子 系统 ， 它 将 多 个 网 络 连 接 起 来 提供 公共 数据 通信 设施 ， 这 些 数 
据 通 信 设 施 覆 盖 了 单个 网 络 中 的 技术 和 协议 以 及 用 于 互 连 的 方法 。 

开发 可 扩展 、 开 放 的 分 布 式 系统 ， 需 要 用 到 互连网 络 。 分 布 式 系统 的 开放 性 特征 意 指 分 布 式 系统 
所 使 用 的 网 络 应 该 是 一 个 可 扩展 到 含有 大 量 计算 机 的 网 络 ， 而 单个 网 络 的 地 址 空间 有 限 ， 且 一 些 网 络 
有 性 能 限制 ， 都 不 宜 于 大 规模 地 使 用 。 在 互连网 络 中 ， 可 将 众多 的 局 域 网 和 广域网 技术 集成 起 来 为 各 
类 用 户 提供 连 网 能 力 。 这 样 ， 互 连 网 络 给 分 布 式 系统 的 通信 提供 了 很 多 开放 系统 所 具有 的 好 处 。 

互连网 络 是 由 多 种 网 络 组 建 而 成 的 。 它 们 的 互 连 依 靠 称 为 路 由 器 的 专用 计算 机 和 称 为 网 关 的 通用 
计算 机 ， 集 成 通信 子 系统 由 软件 层 实现 ， 它 为 互连网 络 的 计算 机 提供 寻 址 以 及 数据 传输 功能 。 可 以 把 
互连网 络 想象 成 一 个 “虚拟 网 络 ” ， 它 是 由 底层 网 络 、 路 由 器 、 网 关 组 成 的 通信 介质 上 覆盖 一 个 互 连 
网 络 层 而 构造 出 来 的 。 互 联网 是 网 际 互 连 的 一 个 主要 的 例子 ， 它 所 使 用 的 TCP/IP 协议 是 上 面 提 到 的 集 
成 层 的 一 个 例子 。 

网 络 错误 ”图 3-1 的 比较 没有 显示 的 一 点 是 不 同 网 络 中 会 发 生 的 故障 频率 和 类 型 。 除 了 在 无 线 网 
络 中 数据 包 经 常会 因为 外 部 于 扰 而 丢失 之 外 ， 其 他 各 种 网 络 的 底层 数据 传输 介质 的 可 靠 性 都 很 高 。 但 
在 所 有 网 络 中 ， 都 会 由 于 处 理 延 迟 、 交 换 机 缓冲 区 滋 出 或 者 目的 结 点 缓冲 区 溢出 而 引起 数据 包 丢失 ， 
而 这 也 是 迄今 为 止 数据 包 丢失 最 常见 的 原因 。 

数据 包 到 达 的 顺序 可 以 与 发 送 的 顺序 不 一 样 ， 这 种 情况 只 出 现在 对 分 离 的 数据 包 可 以 单独 路 由 的 
网 络 一 一 主要 是 广域网 中 。 如 果 发 送 方 假设 以 前 发 送 的 数据 包 丢失 了 ， 那 么 可 以 发 送 数据 包 的 拷贝 。 
数据 包 被 重 发 后 ， 接 收 方 会 同时 收 到 原 数据 包 和 重 发 的 数据 包 。 


3.3 网 络 原理 


计算 机 网 络 的 基础 是 20 世纪 60 年 代 发 展 起 来 的 包 交 换 技 术 。 它 使 得 发 送 到 多 个 地 址 的 消息 可 以 
共享 同一 条 通信 链接， 这 不 同 于 常规 电话 所 采用 的 电路 交换 技术 。 当 链接 可 用 时 ， 数据 包 按 顺 序 排列 
在 缓冲 区 中 ， 然 后 发 送 。 通 信和 是 异步 的 一 一 消息 经 过 一 段 延迟 到 达 目 的 地 ， 该 延迟 取决 于 数据 包 在 网 
络 中 传递 所 花费 的 时 间 。 


3. 3.1 数据 包 的 传输 


计算 机 网 络 的 大 多 数 应 用 需求 是 按 有 辑 单元 发 送信 息 或 消息 一 任意 长 度 的 数据 串 。 在 消息 传递 
前 ， 它 被 分 割 成 数据 包 。 形 式 最 简单 的 数据 包 是 长 度 有 限 的 二 进 制 数据 序列 《比特 或 字 节 数 组 ) 以 及 
识别 源 和 目的 地 计算 机 的 寻 址 信息 。 使 用 长 度 有 限 的 数据 包 是 为 了 : 

。 网 络 中 的 每 台 计 算 机 能 为 可 能 到 来 的 最 大 的 数据 包 分 配 足 够 的 缓冲 空间 。 

。 避免 长 消息 不 加 分 割地 传递 所 引起 的 为 等 待 通信 通道 空闲 而 出 现 的 过 度 延 迟 。 


3.3.2 数据 流 

我 们 在 第 2 章 中 曾 提 到 ， 多 媒体 应 用 中 视频 /音频 流 的 传输 需要 保证 其 速度 和 一 定 范围 内 的 延迟 。 
这 样 的 流 和 数据 包 传输 所 针对 的 基于 消息 的 流量 类 型 有 本 质 上 的 不 同 。 视 频 / 音 频 流 比分 布 式 系统 中 其 
他 大 部 分 通信 形式 所 需要 的 带宽 都 要 高 。 
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为 了 达到 实时 显示 的 目的 ， 如 果 传 输 的 是 压缩 的 数据 ， 则 视频 流 的 传输 需要 1. SMbps 的 带宽 ; 如 
果 传 输 的 是 未 压缩 的 数据 ， 则 需要 大 约 120Mbps 的 带宽 。 另 外 ， 和 典型 的 客户 - 服务 器 交互 程序 所 产 
生 的 断断续续 的 数据 流量 相反 ， 这 种 流 是 连续 的 。 多 媒体 元 素 的 播放 时 间 是 必须 被 显示 的 时 间 (对 袖 
频 元 素来 说 ) 或 必须 转 成 音频 的 时 间 〈 对 声音 采样 而 言 ) 。 举 例 来 说 ， 视 频 帧 的 流速 是 每 秒 24 个 帧 ， 
那么 第 N 帧 的 播放 时 间 是 从 流 开始 传输 后 的 N/24 秒 。 元 素 如 果 述 于 它 的 播放 时 间 到 达 目 的 地 ， 它 就 
不 再 有 用 ， 将 被 接收 进程 丢弃 。 

及 时 传输 这 种 数据 流 依赖 于 具有 一 - 定 服务 质量 (带宽 、 延 迟 和 可 靠 性 必须 都 有 保证 ) 的 网 络 连 
接 。 现 在 所 需要 的 是 建立 起 多 媒体 流 从 源 到 目的 地 的 通道 ， 其 中 路 由 是 预定 义 好 的 ， 在 经 过 的 结 点 上 
保留 需要 的 资源 ， 在 通道 中 对 任何 不 规则 的 数据 流 进 行 适当 的 缓冲 。 通 过 这 个 通道 ， 数 据 可 在 要 求 的 
速率 下 从 发 送 方 传送 到 接收 方 。 

ATM 网 络 专门 设计 为 提供 高 带宽 和 低 延 迟 ， 并 通过 保留 网 络 资源 保证 服务 质量 。IPv6 (互联 网 新 
的 网 络 协议 ， 其 描述 见 3.4.4 节 ) 的 一 个 特色 是 实时 流 中 的 每 一 个 卫 数据 包 都 能 在 网 络 层 被 单独 识别 
和 处 理 。 

通信 子 系统 若 要 提供 服务 质量 保证 ， 就 要 有 能 预 分 配 网 络 资源 并 强行 执行 这 些 分 配 的 设施 。 资 源 
保留 协议 (Resource Reservation Protocol, RSVP) [Zhang et al. 1993] 使 得 应 用 能 协商 实时 数据 流 的 带 
宽 预 分 配 。 实 时 传输 协议 (Real Time Transport Protocol, RTP) [ Schulzrinne et al. 1996] 是 一 个 应 用 级 
数据 传输 协议 ， 它 在 每 个 数据 包 中 包含 了 播放 时 间 和 其 他 定时 要 求 。 要 在 互联 网 中 有 效 实现 这 些 协 议 ， 
传输 层 和 网 络 层 都 必须 作出 实质 性 的 改变 。 第 20 章 将 详细 讨论 分 布 式 多 媒体 应 用 的 需求 。 


3.3.3 交换 模式 


网 络 是 一 组 由 电路 连接 起 来 的 结 点 组 成 的 。 为 了 能 在 任意 两 个 结 点 间 传 输 信 息 ， 交 换 系 统 是 必 不 
可 少 的 。 这 里 我 们 定义 在 计算 机 网 络 中 使 用 的 四 种 交换 。 

广播 “广播 是 一 种 不 涉及 交换 的 传输 技术 。 任 何 信息 都 将 被 传 给 每 一 个 结 点 ， 由 接收 方 判 断 是 否 
接收 。 一 些 LAN 技术 〈 包 括 以 太 网 ) 是 基于 广播 的 。 无 线 网 络 也 有 必要 基于 广播 ， 但 是 由 于 缺少 固定 
电路 ， 广 播 只 能 到 达 蜂 筑 内 的 结 点 。 

电路 交换 ”电话 网 曾经 是 唯一 的 电信 网 。 它 们 的 操作 非常 容易 理解 : 当主 叫 方 拨号 时 ， 主 叫 方 电 
话 到 本 地 电话 交换 台 的 线路 会 通过 自动 交换 机 连接 到 被 叫 方 的 电话 线 。 长 途 电话 的 拨 叫 过 程 也 是 类 似 
的 ， 只 不 过 要 经 过 多 个 交换 台 而 已 。 这 种 系统 有 时 被 称 为 老式 电话 系统 《POTS)。 它 是 典型 的 电路 交 
换 网 络 。 

ARR ”计算 机 和 数字 技术 的 诞生 为 电信 和 领域 带 来 了 新 的 契机 。 从 根本 上 说 ， 它 使 得 人 们 可 以 处 
理 和 存储 数据 ， 这 使 得 以 完全 不 同 的 方式 构造 通信 网 络 成 为 可 能 。 这 种 新 的 通信 和 网络 叫做 存储 转发 网 
络 。 存 储 转发 网 络 并 不 是 通过 建立 或 取消 连接 来 构造 电路 ， 而 只 是 将 数据 包 从 它 的 源 地 址 转发 到 目标 
地 址 。 在 每 个 交换 结 点 上 〈 也 就 是 几 个 电路 需要 互 连 的 交汇 处 ) 有 一 台 计算 机 。 数 据 包 到 达 一 个 结 点 
后 先 存储 在 这 个 结 点 的 内 存 中 ， 再 由 一 个 程序 选择 数据 包 的 外 出 电路 ， 将 它们 转发 到 下 一 个 离 它们 目 
的 地 更 近 的 结 点 。 

这 里 没有 什么 全 新 的 内 容 ， 邮 政 系 统 就 是 一 个 信件 的 存储 转发 网 络 ， 其 处 理由 人 或 机 器 在 信件 分 
拒 室 完成 。 而 在 计算 机 网 络 中 ， 数 据 包 的 存储 和 处 理 很 快 ， 即 使 数据 包 路 由 了 许多 结 点 ， 也 能 给 人 们 
瞬间 传输 的 假象 。 

帧 中 继 ”现实 中 ， 存 储 转发 网 络 中 每 个 结 点 转发 一 个 数据 包 需 要 的 时 间 从 几 十 微 秒 到 几 微 秘 不 等 ， 
这 个 交换 延迟 取决 于 数据 包 的 大 小 、 硬 件 的 速度 和 当时 的 流量 情况 ,但 它 的 下 限 由 网 络 带宽 决定 ， 央 
为 整个 数据 包 必须 在 它 转发 给 另 一 个 结 点 之 前 先 收 到 。 数 据 包 在 到 达 目 的 地 址 前 ， 可 能 要 通过 很 多 的 
结 点 。 互 联网 中 大 多 数据 包 基于 存储 转发 交换 ， 正 如 我 们 已 经 知道 的 ， 即 使 是 很 小 的 互联 网 数据 包 通 
常 也 需要 200ms 左右 的 时 间 到 达 目 的 地 。 这 个 量 级 的 延迟 对 于 电话 会 议 、 视 频 会 议 这 样 的 实时 应 用 而 
言 就 太 长 了 ， 要 维持 高 质量 的 会 谈 。 延迟 不 得 超过 50ms。 

帧 中 继 交 换 方法 给 包 交 换 网 络 引入 了 电路 交换 的 一 些 优势 。 它 们 通过 很 快 地 交换 小 的 数据 包 〈 称 
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为 帧 ) 来 解决 延迟 的 问题 。 交 换 结 点 (通常 是 专用 的 并 行 数字 处 理 器 ) 通过 检测 帧 的 前 几 位 信息 来 路 
由 帧 。 帧 并 不 作为 一 个 整体 存储 在 结 点 中 ， 而 是 以 位 流 的 形式 通过 结 点 。ATM 网 络 是 一 个 最 好 的 例 
子 。 高 速 ATM 网 络 在 由 很 多 结 点 组 成 的 网 络 中 传递 数据 包 只 需要 几 十 微 秒 。 
3.3.4 协议 

协议 是 指 为 了 完成 给 定 任务 ， 进 程 间 通 信 所 要 用 到 的 一 组 众所周知 的 规则 和 格式 。 协 议 的 定义 包 


插 两 个 重要 的 部 分 


。 必须 交换 的 消息 的 顺序 的 规约 。 

。 消息 中 数据 格式 的 规约 。 

众所周知 的 协议 的 存在 使 得 分 布 式 系 统 的 软件 组 件 能 独立 地 开发 ， 能 在 代码 次 序 不 一 样 、 数 据 表 
达 不 一 样 的 计算 机 上 用 不 同 的 程序 语言 实现 。 

一 个 协议 是 由 分 别 位 于 发 送 方 计算 机 和 接收 方 计算 机 上 的 一 对 软件 模块 实现 的 。 例 如 ， 一 个 传输 
协议 将 任意 长 度 的 消息 从 一 个 发 送 进程 传递 给 一 个 接收 进程 。 想 向 另 一 个 进程 传输 消息 的 进程 给 传输 
协议 模块 发 出 一 个 调用 ， 并 按 指定 的 格式 传递 消息 。 接 着 传输 软件 负责 将 消息 传递 到 目的 地 ， 它 将 消 
息 分 割 成 指定 大 小 的 数据 包 和 格式 ， 利 用 网 络 协议 〈 另 一 个 低层 的 协议 ) 将 消息 传输 到 目的 地 。 接 收 
方 计算 机 中 相应 的 传输 协议 模块 通过 网 络 级 协议 模块 接收 这 些 数据 包 ， 并 在 传递 给 接收 进程 之 前 ， 进 
行道 向 转换 ， 重 新 生成 消息 。 发 送 的 消息 接收 的 消息 

协议 层 “网络 软 件 是 按 层 的 层次 结构 ”高 , 
排列 的 。 每 一 层 都 为 上 面 的 层 提供 了 相应  . 
的 接口 ， 并 扩展 了 下 层 通 信 系统 的 性 质 。 
层 由 与 网 络 相连 的 每 一 个 计算 机 上 的 一 个 ”第 2 层 
模块 表示 。 图 3-2 说 明了 这 个 结构 和 通过 分 “第 ] 属 
层 协议 传递 消息 时 的 数据 流 。 每 一 个 模块 
看 起 来 都 是 和 网 络 中 另 一 个 计算 机 上 相同 图 3-2 协议 软件 中 层 的 概念 
层次 的 模块 直接 通信 ， 但 事实 上 数据 并 没有 在 两 个 同 层次 的 协议 模块 之 间 直 接 传输 。 网 络 软件 的 每 一 
层 都 只 通过 本 地 过 程 调用 与 它 的 上 一 层 和 下 一 层 通信 。 

在 发 送 方 ， 每 一 层 ( 除 了 最 顶层 ， 即 应 用 层 以 外 ) 从 上 一 层 按照 指定 的 格式 接收 数据 项 ， 并 在 
将 其 传送 到 下 一 层 进行 进一步 处 理 之 前 ， 进 行 数据 转换 ， 按 下 一 层 的 格式 封装 数据 。 图 3-3 说 明了 
这 一 过 程 ， 在 图 中 ,该 过 程 被 应 用 于 OSI 协议 组 的 前 四 层 。 从 图 中 可 以 看 出 ， 数 据 包 的 头 部 包含 大 
部 分 与 网 络 相关 的 数据 项 ， 但 为 了 简洁 起 见 ， 它 省 略 了 在 一 些 数据 包 类 型 中 出 现 的 附加 部 分 ; 同时 
该 图 也 假设 应 用 层 要 传递 的 应 用 层 消息 的 长 度 小 于 底层 网 络 数据 包 的 最 大 长 度 。 否 则 ， 消 息 就 要 被 
封装 成 几 个 网 络 层 的 数据 包 。 在 接收 方 ， 下 层 接收 到 的 数据 项 要 进行 一 次 相反 的 转换 ， 再 传递 到 上 
一 层 。 上 层 协 议 的 类 型 已 经 包括 在 了 每 层 的 头 部 ， 这 使 得 接收 方 的 协议 栈 能 选择 正确 的 软件 组 件 来 
拆 分 数据 包 。 





发 送 方 通信 介质 





应 用 层 消息 





表示 层 头 部 E 








”会 话 层 头 部 1 














| 
传输 层 头 部 | 
| 


+ 
网 络 层 头 部 | 





图 3-3 ”封装 在 分 层 协 议 中 的 应 用 
这 样 ， 每 一 层 为 上 一 层 提供 服务 ， 并 扩展 下 一 层 提供 的 服务 。 最 下 面 的 是 物理 层 。 它 是 由 通信 介 
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质 ( 钢 线 、 光 缆 、 卫 星 通信 信道 或 无 线 电 传输 ) 和 在 发 送 结 点 将 信号 放置 在 通信 介质 上 ， 在 接收 结 点 
感应 该 信号 的 模拟 信号 电路 实现 的 。 在 接收 结 点 ， 接 收 到 的 数据 项 通过 软件 模块 的 层次 结构 向 上 传送 ， 
在 每 一 层 都 重新 转换 直到 变 成 可 传递 给 接收 进程 的 格式 为 止 。 
协议 组 ”一 套 完整 的 协议 层 被 称 为 协议 组 或 者 协议 栈 ， 这 也 反映 了 分 层 结构 。 图 3-4 显示 了 与 国 
际 标准 组 织 (ISO) 采用 的 开放 系统 互 连 (Open System Interconnection, OSI) 的 7 层 参 考 模型 [ISO 
1992] 相 一 致 的 协议 栈 。 采 用 OSI 参考 模型 ， 是 为 了 促进 满足 开放 系统 需求 的 协议 标准 的 开发 。 
发 送 的 消息 接收 的 消息 





发 送 方 通信 介质 接收 方 
图 3-4 ISO 开放 系统 互 连 〈0SI) 协议 模型 中 的 协议 层 


图 3-5 总 结 了 OSI 参考 模型 的 每 一 层 的 目标 。 顾 名 思 义 ， 这 只 是 一 个 用 于 协议 定义 的 框架 ， 而 不 
是 特定 协议 组 的 定义 。 与 OSI 模型 一 致 的 协议 组 必须 在 模型 定义 的 7 层 的 每 一 层 包括 至 少 一 个 特定 的 
协议 。 

















| g 描 g 例 子 | 

| 应 用 层 这 层 协议 是 为 满足 特定 应 用 的 通信 需求 而 设计 的 ， 通 常 定 义 了 一 个 HTTP, FTP, STMP, 
服务 接口 CORBA IIOP 

表示 层 这 层 协议 将 以 一 种 网 络 表示 传输 数据 ， 这 种 表示 与 计算 机 使 用 的 表 TLS 安全 、CORBA 
示 无 关 ， 两 种 表示 可 能 完全 不 同 。 如 果 需 要 ， 可 以 在 这 一 层 对 数据 进 数据 表示 
行 加 密 

会 话 层 在 这 层 要 实现 可 靠 性 和 适应 性 ， 例 如 故障 检测 和 自动 恢复 SIP 

传输 层 这 是 处 理 消息 (而 不 是 数据 包 ) 的 最 低 的 一 层 。 消 息 被 定位 到 与 TCP、UDP 
进程 相连 的 通信 端口 上 。 这 层 的 协议 可 以 是 面向 连接 的 ， 也 可 以 是 无 
连接 的 

网 络 层 在 特定 网 络 中 的 计算 机 间 传 输 数据 包 ， 在 一 个 WAN 或 一 个 互连网 IP, ATM 虚 电 路 
络 中 ， 这 一 层 负责 生成 一 个 通过 路 由 器 的 路 径 。 在 单一 的 LAN 中 不 
需要 路 由 

数据 链 路 层 负责 在 有 直接 物理 连接 的 结 点 间 传 输 数 据 包 。 在 WAN 中 ， 传 输 是 Ethernet MAC, ATM 
在 路 由 器 间或 路 由 器 和 主机 间 进 行 的 。 在 LAN 中 ， 传 输 是 在 任意 一 信 元 传送 、PPP 
对 的 主机 间 进 行 的 

物理 层 指 驱动 网 络 的 电路 和 硬件 。 它 通过 发 送 模拟 信号 传输 二 进 制 数据 序 Ethernet 基带 信和 号 、 
列 ， 用 电信 号 的 振幅 或 频率 调制 信号 〈 在 电缆 电路 上 ) ， 光 信号 (在 ISDN 

| 光纤 电路 上 ) ， 或 其 他 电磁 信号 〈 在 无 线 电 和 微波 电路 上 ) | 

图 3-5 OSI 协议 小 结 


协议 分 层 给 简化 和 概括 访问 网 络 通信 服务 的 软件 接口 带 来 了 实质 性 的 好 处 ， 同 时 也 带 来 了 极 大 的 
性 能 开销 。 通 过 NV 层 协 议 栈 传输 一 个 应 用 级 的 消息 ， 通 常 在 协议 组 中 要 进行 N 次 控制 传输 ， 才 能 到 达 
相关 的 软件 层 ， 其 中 至 少 有 一 个 是 操作 系统 的 入口 ， 数 据 的 N 份 拷贝 也 作为 了 封装 机 制 的 一 部 分 。 所 
有 这 些 开 销 导 致 应 用 进程 间 的 数据 传输 率 远 低 于 可 用 的 网 络 带 宽 。 

图 3-5 包括 了 在 互联 网 中 使 用 的 协议 的 例子 ， 但 互联 网 的 实现 在 两 方面 没有 遵循 0SI 模型 。 第 一 ， 
在 互联 网 协议 栈 中 ， 并 没有 清楚 地 区 分 应 用 层 、 表 示 层 、 会 话 层 。 应 用 层 和 表示 层 或 实现 成 单独 的 中 
间 件 层 或 在 每 个 应 用 内 部 单独 实现 。 这 样 ，CORBA 就 可 以 在 每 个 应 用 进程 包括 的 中 间 件 库 中 实现 对 象 
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间 调 用 和 数据 表示 (CORBA 的 进一步 讨论 见 第 8 章 ) 。Web 浏览 器 和 其 他 的 一 些 需要 安全 信道 的 应 用 
也 采用 了 类 似 过 程 库 方式 使 用 的 安全 套 接 字 层 ( 见 第 11 章 ) 。 

第 二 ， 会 话 层 与 传输 层 集成 在 一 起 。 互 连 网 络 协议 组 包括 应 用 层 、 传 输 层 和 互连网 络 层 。 互 连 网 
络 层 是 一 个 “虚拟 的 ”网 络 层 ， 负 责 将 互连网 络 的 数据 包 传输 到 目的 计算 机 。 互 连 网 络 数据 包 是 在 互 
连 网 络 上 传递 的 数据 单元 。 

互连网 络 协 议 覆 盖 在 底层 的 网 络 上 ， p 消息 
参见 图 3-6。 网 络 接口 层 接收 互连网 络 数 vap 
据 包 ， 并 将 其 转换 成 适合 每 个 底层 网 络 的 
网 络 层 传输 的 数据 包 。 传输 层 

数据 包 组 装 在 传输 前 将 消息 分 割 成 。” _ 

多 个 数据 包 并 在 接收 端 重新 组 装 各 个 数据 TENA 
包 的 任务 通常 是 由 传输 层 完成 。 A 

网 络 层 协议 的 数据 包 包括 头 部 和 数据 
域 。 在 大 部 分 网 络 技术 中 ， 数 据 域 是 长 度 REMA 
可 变 的 ， 其 最 大 长 度 称 为 最 大 传输 单元 
(Maximum Transfer Unit，MTU ) 。 如 果 消 图 3-6 互连网 络 层 
息 的 长 度 超过 底层 网 络 层 的 MTU， 就 将 其 分 割 为 多 个 大 小 适当 的 块 ， 并 标 上 序列 号 以 便 其 重新 装配 ， 
再 用 多 个 数据 包 进 行 传输 。 例 如 ， 以 太 网 的 MTU 是 1500 字 节 ， 如 果 消 息 不 超过 这 个 数据 量 ， 就 能 在 
一 个 以 太 网 数据 包 中 进行 传输 。 

尽管 在 互联 网 协议 组 中 ,到 协议 处 于 网 络 层 协议 的 位 置 ， 但 它 的 MTU 却 很 大 ， 有 64KB (实际 通 
堂 使 用 8KB， 因 为 一 些 结 点 无 法 处 理 这 么 大 的 数据 包 ) 。 无 论 外 数据 包 采 用 哪 一 个 MTU 值 ， 比 以 太 网 
MTU 值 大 的 数据 包 必须 经 过 分 割 才 能 在 以 太 网 上 传输 。 

端口 “传输 层 的 任务 是 在 一 对 网 络 端口 间 提供 与 网 络 无 关 的 消息 传送 服务 。 端 口 是 主 机 中 可 由 软 
件 定义 的 目的 点 。 它 隶属 于 进程 ， 使 得 数据 能 传输 到 位 于 目的 结 点 的 指定 进程 。 这 里 我 们 将 详细 讲述 
端口 在 互联 网 和 大 部 分 其 他 网 络 中 实现 的 端口 寻 址 过 程 。 第 4 章 将 讨论 端口 的 编程 。 

寻 址 ”传输 层 负责 将 消息 传递 到 目的 地 址 ， 其 使 用 的 传输 地 址 由 主机 的 网 络 地 址 和 一 个 端口 号 组 
成 。 网 络 地 址 是 能 唯一 标识 主机 的 一 个 数字 标识 符 ， 可 以 让 负责 将 数据 路 由 到 该 主机 的 结 点 准确 地 定 
位 它 。 在 互联 网 中 ， 为 每 台 主 机 都 分 配 了 一 个 他 地 址 ， 用 于 标识 该 主机 和 它 连 人 的 子 网 ， 使 得 从 其 他 
结 点 都 能 路 由 到 该 主机 (下 一 节 将 介绍 这 一 内 容 ) 。 以 太 网 中 没有 路 由 结 点 ， 由 每 台 主 机 负责 辨识 数 
据 包 的 地 址 ， 并 接收 发 给 自己 的 数据 包 。 

众所周知 的 互联 网 服务 如 HTTP 或 FTP) 已 经 被 分 配 了 关联 的 端口 号 。 它 们 都 在 权威 机 构 〈 即 
互联 网 编号 管理 局 ,简称 IANA) 进行 了 登记 [www. iana. org]。 要 访问 指定 主机 上 的 某 个 服务 ， 只 要 
将 请 求 发 给 该 主机 上 相关 的 端口 就 可 以 了 。 有 些 服务 ， 如 FTP (关联 端口 为 21) ， 会 被 分 配 一 个 新 的 
端口 号 〈 私 有 号 码 ) ， 并 将 新 的 端口 号 发 送 到 客户 端 。 客 户 端 使 用 新 的 端口 号 完成 交易 或 会 话 的 剩余 
部 分 。 其 他 服务 ， 如 HTTP (关联 端口 为 80) ， 通 过 关联 端口 处 理 所 有 的 业务 活动 。 

编号 小 于 1023 的 端口 被 定义 为 公共 端口 。 在 大 多 数 操作 系统 中 ， 它 们 的 使 用 被 限制 在 特权 进程 
中 。1024 -49 151 之 间 的 端口 是 IANA 拥有 的 服务 描述 的 已 注册 端口 ， 其 他 直到 65 535 的 端口 可 用 于 个 
AER, XERE, AF 1023 的 所 有 端口 都 可 用 于 个 人 目的 ， 只 是 为 个 人 目的 而 使 用 这 些 端口 的 计算 机 
不 能 同时 访问 相应 的 已 注册 服务 。 

在 开发 经 常 包括 许多 动态 分 配 的 服务 器 的 分 布 式 系统 中 ， 分 配 固定 端口 号 并 不 恰当 。 这 个 问题 的 
解决 方案 涉及 为 服务 动态 分 本 端口 以 及 提供 绑 定 机 制 ， 使 得 客户 能 用 符号 化 名 字 定 位 服务 和 相应 的 端 
口 。 这 些 将 在 第 5 章 做 进一步 讨论 。 

数据 包 传递 ”网 络 层 采 用 两 种 方法 传递 数据 包 。 

数据 报 包 传递 ， 术语 “数据 报 ”指出 了 这 种 传输 模式 与 信件 、 电 报 的 传输 模式 的 相似 性 。 数 据 报 
网 络 的 本 质 特征 是 每 个 包 的 传递 都 是 一 个 “一 次 性 ”的 过 程 ;不 需要 计划 ， 一 旦 包 被 传递 ， 网 络 就 不 


互连网 络 协议 






互连网 络 数据 包 





特定 网 络 的 数据 包 “底层 网 络 协 议 
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再 保存 它 的 相关 信息 。 在 数据 报 网 络 中 ， 从 一 个 源 地 址 到 一 个 目的 地 址 的 数据 包 序 列 可 以 按照 不 同 的 
路 由 来 传递 《这 样 ， 网 络 就 有 能 力 处 理 故障 ， 或 缓解 局 部 拥塞 带 来 的 影响 ) ， 在 这 种 情况 下 ， 数 据 包 
序列 可 能 不 按照 原来 的 顺序 到 达 。 

每 个 数据 报 包 都 包括 完整 的 源 主机 和 目的 地 主机 的 网 络 地 址 ， 后 者 是 路 由 过 程 的 基本 参数 ， 我 们 
将 在 下 一 节 加 以 讨论 。 数 据 报 传递 是 数据 包 网 络 最 初 所 基于 的 概念 ， 可 以 在 目前 使 用 的 大 多 数 计 算 机 
网 络 中 找到 它 。 互 联网 的 网 络 层 (IP)、 以 太 网 以 及 大 部 分 有 线 或 无 线 的 局 域 网 技术 都 是 基于 数据 报 传 
递 的 。 

虚 电 路 包 传递 ; 一 些 网 络 级 的 服务 利用 类 似 于 电话 网 络 中 传递 的 方式 实现 包 传输 。 必 须 在 经 源 主 
机 A 到 目的 主机 B 传递 包 之 前 建立 虚 电路 。 要 建立 虚 电 路 ， 涉 及 确定 从 源 地 址 到 目的 地 址 的 路 由 ， 这 
可 能 会 经 过 一 些 中 间 结 点 。 在 路 由 中 的 每 个 结 点 上 都 会 有 一 个 表格 项 ， 指 示 路 由 下 一 步 该 使 用 哪 一 个 
链接 。 

一 旦 建立 起 虚 电 路 ， 就 可 以 用 它 传 输 任意 数量 的 数据 包 了 。 每 个 网 络 层 的 数据 包 只 包括 一 个 虚 电 
路 导 ， 而 不 是 源 地 址 和 目的 地 址 。 此 时 已 不 需要 地 址 信息 ， 因 为 在 中 间 结 点 ， 通 过 引用 虚 电 路 号 来 路 
由 数据 包 。 数 据 包 到 达 目 的 地 址 后 ， 根 据 虚 电路 号 就 可 以 决定 其 源 地 址 。 

虚 电 路 与 电话 网 络 的 类 比 不 能 这 样 从 表面 上 看 。 在 POTS 中 ， 进 行 一 次 电话 呼叫 就 要 建立 从 主 叫 
者 到 被 叫 者 的 物理 电路 ， 而 这 一 音频 链接 也 将 作为 专用 连接 而 被 保留 。 在 虚 电 路 的 包 传递 中 ， 电 路 只 
是 由 一 些 在 路 由 结 点 上 的 表格 项 来 表示 ， 而 数据 包 所 路 经 的 链接 也 只 在 传递 一 个 数据 包 时 使 用 ， 在 其 
余 时 间 这 些 链 接 是 空闲 的 ， 可 供 它 用 。 因 此 ， 一 个 链接 可 以 被 多 个 独立 的 虚 电 路 使 用 。 目 前 使 用 的 最 O7] 
重要 的 虚 电路 网 络 技术 是 ATM。 我 们 已 经 提 到 过 〈 见 3. 3. 3 节 ) ， 它 传送 单个 数据 包 的 延迟 较 短 ， 这 
是 使 用 虚 电 路 的 直接 结果 。 但 无 论 怎么 说 ， 数 据 包 传送 到 一 个 新 目的 地 址 前 要 求 有 一 个 准备 阶段 ， 这 
确实 造成 了 短 时 间 的 延迟 。 

不 要 将 网 络 层 的 数据 报 传递 和 虚 电 路 包 传递 之 间 的 区 别 与 传输 层 中 名 字 相 似 的 一 对 机 制 〈 即 无 连 
接 传输 和 面向 连接 传输 ) 相 混淆 。 我 们 将 在 3.4.6 节 有 关 互 联网 传输 协议 一 一 UDP (无 连接 的 ) 和 
TCP (面向 连接 的 ) 的 内 容 中 描述 这 些 技 术 。 这 里 我 们 只 是 让 大 家 注意 ， 在 任何 一 种 类 型 的 网 络 层 上 
都 可 以 实现 这 些 传输 模式 。 


3.3.5 路 由 
路 由 是 除了 局 域 网 以 外 ， 例 如 以 太 网 〈 局 域 网 在 所 有 相连 的 主机 间 两 两 都 有 直接 连接 ) ， 其 他 网 
络 都 需要 的 功能 。 在 大 型 网 络 中 ， 采 用 的 是 自 适应 路 由 ， 即 网 络 两 点 间 通 信 的 最 佳 路 由 会 周期 性 地 重 
新 评估 ， 评 估 时 会 考虑 到 当时 的 网 络 流量 以 及 
故障 情况 (如 路 由 器 故障 或 网 络 断 链 ) 。 
如 图 3-7 所 示 ， 在 网 络 中 将 数据 包 传递 到 
目的 地 址 是 处 于 连接 点 的 路 由 器 的 共同 责任 。 | 
PAROLE SLA HN ESLER, om Q 





否则 数据 包 都 必须 经 过 一 个 或 多 个 路 由 结 点 ， 本 地 网 
轧 转 多 次 才能 到 达 。 而 决定 数据 包 传输 到 目的 > _()_@ 
地 址 的 路 由 是 由 路 由 算法 负责 的 一 一 它 由 每 个 | | e 
结 点 的 一 个 网 络 层 程序 实现 。 

路 由 算法 包括 两 个 部 分 : 

1) 它 必须 决定 每 个 数据 包 穿梭 于 网 络 时 
所 应 经 过 的 路 径 。 在 电路 交换 网 络 层 〈 如 
X.25) 和 帧 中 继 网 络 〈 如 ATM) 中， 一 旦 建立 虚 电 路 或 连接 ， 路 由 也 就 确定 了 。 在 包 交 换 网 络 层 [B8] 
(HIP) 中 ,数据 包 的 路 由 是 单独 决定 的 。 如 果 希 望 不 降低 网 络 性 能 ， 算 法 必须 特别 简单 有 效 。 

2) 它 必 须 通过 监控 流量 和 检测 配置 变化 或 故障 来 动态 地 更 新 网 络 的 知识 。 在 这 种 活动 中 ， 时 间 并 
不 是 至 关 重要 的 ， 可 以 使 用 速度 较 慢 但 计算 量 较 大 的 技术 。 


图 3-7 广域网 中 的 路 由 
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这 两 个 活动 分 布 在 整个 网 络 中 。 路 由 是 一 段 一 段 决定 的 ， 它 用 本 地 拥有 的 信息 决定 每 个 进入 的 数 
据 包 下 一 步 的 方向 。 本 地 拥有 的 路 由 信息 依靠 一 个 分 发 链 路 状态 信息 〈 它 们 的 负载 和 故障 状态 ) 的 算 
法 定期 更 新 。 

一 个 简单 的 路 由 算法 ”我 们 在 这 里 描述 的 是 “距离 向 量 ”算法 。 这 将 为 3.4. 3 节 中 讨论 链 路 - 状 
态 算 法 提供 基础 ， 而 链 路 - 状态 算法 从 1979 以 来 就 成 为 互联 网 上 主要 的 路 由 算法 。 网 络 中 的 路 由 是 在 
图 中 寻找 路 径 问 题 的 一 个 实例 。Bellman 的 最 短路 径 算法 [Bellman 1957] 早 在 计算 机 网 络 出 现 之 前 就 
发 表 了 ， 它 为 距离 向 量 法 提供 了 基础 。Bellman 的 方法 已 被 Ford 和 Fulkerson [1962] 改写 成 一 个 适合 
大 型 网 络 实现 的 分 布 式 算法 ， 而 基于 他 们 的 工作 成 果 的 协议 常常 被 称 为 “Bellman-Ford” 协 议 。 

图 3-8 给 出 了 图 3-7 的 网 络 中 每 个 路 由 器 中 保存 的 路 由 表 ， 其 中 假设 网 络 中 没有 出 故障 的 链 路 和 
路 由 器 。 路 由 表 的 每 行为 发 送 给 定 目 的 地 址 的 数据 包 提供 了 路 由 信息 。 链 路 域 为 发 送 到 指定 目的 地 的 
数据 包 指明 了 下 一 段 链 路 。 开 销 域 计算 向 量 距 离 ， 或 到 达 目 的 地 的 跳 数 。 对 于 具有 相似 带宽 的 链 路 的 
存储 转发 网 络 ， 这 张 表 对 一 个 数据 包 传输 到 目的 地 所 需 的 时 间 给 出 了 合理 估计 。 存 储 在 路 由 表 中 的 开 
销 信息 并 不 是 路 由 算法 的 第 1 部 分 所 采取 的 包 路 由 动作 中 使 用 的 ， 而 是 在 算法 的 第 2 部 分 建立 和 维护 
路 由 表 时 使 用 。 











路 由 : 从 A 路 由 : 从 B 路 由 : 从 C 
到 链 路 开销 到 链 路 开销 到 和 链 路 ”开销 
A ”本 地 0 A 1 1 A 2 2 
B 1 l B ”本 地 0 B 2 1 
C 1 2 C 2 1 C ”本 地 0 
D 3 1 D 1 2 D 5 2 
E 1 2 E 4 1 E 5 1 














路 由 : 从 D 路 由 : 从 E 
到 链 路 开销 到 链 路 开销 
A 3 1 A 4 2 
B 3 2 B 4 1 
C 6 2 C 5 1 
D 本 地 0 D 6 1 
E 6 1 E 本 地 0 





图 3-8 图 3-7 所 示 网 络 的 路 由 表 


路 由 表 中 为 每 个 可 能 的 目的 地 单独 设置 一 项 ， 给 出 了 数据 包 到 达 目 的 地 而 要 采取 的 下 一 跳 
(hop) 。 当 数据 包 到 达 一 个 路 由 器 时 ， 就 会 抽取 目的 地 址 并 在 本 地 路 由 表 中 查找 该 地 址 。 路 由 表 中 的 表 
项 给 出 了 指引 数据 包 发 送 到 目的 要 经 过 的 下 一 个 链 路 。 

例如 ,一 个 目的 地 为 C 的 数据 包 从 路 由 器 A 开始 发 送 ， 路 由 器 在 路 由 表 中 检查 有 关上 的 项 。 路 由 
表 表 明 数 据 包 应 该 从 A 沿 标 号 为 1 的 链 路 路 由 。 数 据 包 到 达 了 后， 按照 前 述 的 过 程 ,在 了 的 路 由 表 中 
查询 ， 发 现 需要 经 过 标号 为 2 的 链 路 路 由 到 C。 当 数据 包 到 达 C 时 ， 路 由 表 中 的 相关 项 显示 “本 地 ”， 
而 不 是 一 个 链 路 号 。 这 表明 应 该 将 数据 包 发 送 到 本 地 主机 上 去 。 

现在 让 我 们 来 考虑 一 下 怎样 建立 路 由 表 ， 以 及 在 网 络 发 生 故 障 时 怎样 维护 路 由 表 ， 即 上 面 所 说 的 
路 由 算法 的 第 2 部 分 是 怎样 完成 的 。 因 为 每 个 路 由 表 只 为 每 个 路 由 指定 一 跳 ， 所 以 路 由 信息 的 构建 或 
修正 就 可 以 按 分 布 的 方式 进行 。 每 个 路 由 器 使 用 路 由 器 信息 协议 (Router Information Protocol, RIP) 通 
过 发 送 自己 路 由 表 信息 的 概要 和 邻接 结 点 相互 交换 网 络 信息 。 下 面 简要 描述 一 下 路 由 器 所 完成 的 RIP 
动作 : 

1) 周期 性 地 并 且 只 要 本 地 路 由 表 发 生疏 变 ,， 就 将 自己 的 路 由 表 (以 概要 的 方式 ) 发 给 邻接 的 所 
有 可 访问 的 路 由 器 。 也 就 是 说 ， 在 每 个 没有 故障 的 链 路 上 发 出 一 个 包含 路 由 表 副 本 的 RIP 数据 包 。 

2) 当 从 邻接 路 由 器 收 到 这 样 的 表 时 ， 如 果 接 收 到 的 表 中 给 出 了 到 达 一 个 新 目的 地 的 路 由 ， 或 对 于 
已 有 的 一 个 目的 地 更 好 〈 开 销 更 低 ) 的 路 由 ， 则 用 新 的 路 由 更 新 本 地 的 路 由 表 。 如 果 路 由 表 是 从 链 路 
n 接收 到 的 ,并且 表 中 给 出 的 从 链 路 n 开始 到 达 某 地 的 开销 和 本 地 路 由 表 中 的 不 相同 ， 则 用 新 的 开销 
蔡 换 本 地 表 中 已 有 的 开销 。 这 样 做 的 原因 是 ,新 表 是 从 和 相关 的 目的 地 更 近 的 路 由 帘 传 来 的 ， 因 此 对 
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经 过 该 路 由 器 的 路 由 而 言 更 加 有 权威 性 。 
图 3-9 给 出 的 伪 代 码 程序 将 更 准确 地 找 述 这 个 算法 ， 其 中 全 是 从 另 一 个 路 由 器 接收 到 的 表 ， 多 是 
本 地 路 由 表 。Ford 和 Fulkerson [1962] 已 经 证 明 ， 无 论 何 时 网 络 发 生变 化 ， 上 面 描 述 的 步骤 都 能 充分 
确保 路 由 表 收 敛 到 到 达 每 个 目的 地 的 最 佳 路 由 。 即 使 网 络 没 有 发 生变 化 ， 也 会 以 频率 :来 传播 路 由 表 ， 
以 确保 其 稳定 性 ， 例如， 要 在 丢失 RIP 数据 包 的 情况 下 保证 稳定 性 。 互 联网 采用 的 上 值 是 30s。 [i00] 


Send: 每 隔 秘 或 在 7 发 生变 化 时 ， 在 每 个 没有 故障 的 链 路 上 发 送 77。 
Receive: 当 在 链 路 2 上 接收 到 路 由 表 他 : 
for all rows Rr in Tr 
if (Rrlink # n) { 
Rrcost = Rrcost +1; 
Rrlink = n; 
If (Rrdestination RETIE) 将 Rr 加 入 到 TZ UTE MA ZA E KHa 
else for TI 中 的 所 有 行 RI { 
If (Rrdestination = Rl. destination and 
(Rrcost < Ri. cost or Ri link =n) ) RI = Rr; 
H Rr.cost < Ri.cost : 远程 结 点 有 更 好 的 路 由 
Ii Rllink =n : 远程 结 点 更 加 权威 
} 
} 
} 














图 3-9 RIP 路 由 算法 


为 了 处 理 故 障 ， 每 个 路 由 髓 都 监控 着 自己 的 链 路 并 做 以 下 的 工作 : 

当 检 测 到 一 条 有 故障 的 链 路 nn 时 ,将 本 地 家 中 指向 故障 链 路 的 所 有 项 的 开销 都 设 为 无 穷 大 (x )， 
并 执行 Send 动作 。 

这 样 ， 一 个 浙 开 的 链 路 信息 被 表示 成 通 往 相关 目的 地 的 开销 值 是 无 穷 大 。 当 这 一 信息 传播 到 邻接 
路 由 器 时 ， 它 们 的 路 由 表 也 将 根据 Receive 动作 进行 更 新 《注意 : x +1 = w )， 然 后 继续 传播 直到 有 
路 由 到 相关 目的 地 的 结 点 。 最 终 ， 具 有 可 用 路 由 的 结 点 将 会 传播 其 路 由 表 ， 它 的 可 用 路 由 也 将 替代 所 
有 结 点 上 的 故障 路 由 。 

向 量 -距离 算法 可 以 用 多 种 方法 进行 改进 。 开 销 ， 也 被 称 为 度量 ， 可 以 根据 链 路 的 实际 带宽 来 计 
算 ， 可 以 修改 算法 ， 以 增加 信息 收敛 的 速度 ， 并 避免 那些 在 达到 收敛 前 可 能 出 现 的 不 希望 出 现 的 中 间 
状态 ， 例 如 循环 。 有 具有 这 些 改进 的 路 由 信息 协议 是 第 一 个 在 互联 网 中 使 用 的 路 由 协议 ， 也 就 是 众 所 周 
知 的 RIP-1， 其 具体 描述 见 RFC 1058 [Hedrick 1988] 。 但 收敛 速度 过 慢 所 带 来 的 问题 并 没有 得 到 很 好 
的 解决 ， 当 网 络 处 于 中 间 状 态 时 就 会 出 现 路 由 低 效 和 数据 包 丢 失 的 问题 。 

后 来 ， 路 由 算法 的 发 展 趋 于 在 每 个 网 络 结 点 中 增加 对 于 网 络 的 信息 容量 。 这 一 类 算法 中 最 重要 的 
一 族 是 链 路 - 状态 算法 。 它 们 的 基本 思想 是 分 布 并 更 新 在 每 个 结 点 中 一 个 表示 网 络 所 有 部 分 或 重要 部 
分 的 数据 库 。 每 个 结 点 负责 计算 在 自己 的 数据 库 中 所 显示 的 到 达 目 的 地 的 最 佳 路 由 。 这 种 计算 可 利用 
多 种 算法 完成 ， 有 些 算法 避免 了 Bellman-Ford 算法 中 存在 的 问题 ， 如 收敛 的 时 间 慢 和 出 现 的 不 希望 中 
间 状 态 。 路 由 算法 的 设计 是 一 个 相当 重要 的 主题 ， 我 们 这 里 的 讨论 是 非常 有 限 的 。 我 们 将 在 3.4.3 节 [fol 
重新 讨论 这 个 主题 ， 在 那里 将 描述 RIP-1 算法 的 操作 ，RIP-1 算法 是 最 早 用 于 人 P 路 由 的 算法 之 一 , H 
前 在 互联 网 的 许多 地 方 还 在 使 用 它 。 对 于 互联 网 中 更 深入 的 路 由 问题 ， 请 参阅 Huitema [2000] ， 如 想 
全 面 地 了 解 路 由 算法 ， 请 参阅 Tanenbaum [2003] 。 


3.3.6 拥塞 控制 


网 络 的 能 力 受 到 通信 和 链 路 性 能 和 交换 结 点 性 能 的 限制 。 当 任何 链 路 或 结 点 的 负载 接近 其 负载 能 力 
时 ， 试 图 发 送 数据 包 的 主机 中 就 会 建立 队列 ， 传 输 数 据 的 中 间 结 点 因为 被 其 他 数据 传输 所 阻塞 而 建立 
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队列 。 如 果 负 载 继续 维持 在 这 样 的 高 水 平 ， 那 么 等 待 发 送 的 队列 就 会 不 断 增 长 ， 直 到 达到 可 用 的 缓冲 
区 空间 的 上 限 为 止 。 

一 旦 结 点 达到 这 样 的 状态 , 结 点 只 能 将 以 后 到 达 的 数据 包 丢 弃 。 前 面 已 经 提 到 过 ， 在 网 络 层 侦 尔 出 
现 数据 包 丢 失 是 允许 的 ， 这 种 损失 可 以 通过 从 更 高 层 重 传 丢失 的 数据 包 来 弥补 。 而 当 数 据 包 丢失 率 和 重 
传 率 达 到 一 个 很 高 的 水 平 ， 那 么 会 给 网 络 的 吞吐 量 带 来 灾难 性 的 后 果 。 道 理 很 简单 ， 如 果 数 据 包 在 中 间 
结 点 被 丢弃 ， 那 么 已 经 占用 的 网 络 资源 就 被 浪费 掉 了 ， 而 重 传 还 要 再 消耗 同样 多 的 资源 。 经 验 表 明 ， 当 网 络 
的 负载 超过 其 能 力 的 80% ， 系 统 的 总 吞吐 量 会 因为 数据 包 丢 失 而 下 降 ， 除 非 控制 高 负载 链 路 的 使 用 。 

为 了 避免 数据 包 在 网 络 中 传递 时 经 过 拥塞 结 点 而 被 丢弃 的 情况 ， 最 好 将 数据 包 保 存在 发 生 拥 塞 之 
前 的 结 点 中 直到 拥塞 减少 。 这 固然 会 增加 数据 包 的 延迟 ， 但 不 会 极 大 降低 整个 网 络 的 吞吐 量 。 用 于 实 
现 该 目的 的 技术 称 为 拥塞 控制 。 

通常 ， 拥 塞 控制 是 通过 通知 发 生 拥塞 的 路 由 上 的 结 点 而 实现 的 ， 因 此 它们 的 数据 包 传输 率 会 有 所 
减少 。 对 中 间 结 点 来 说 ， 这 意味 着 进入 的 数据 包 将 会 缓冲 很 长 时 间 。 而 作为 发 出 数据 包 的 源 主 机 ， 结 
果 就 是 把 要 发 送 的 数据 包 在 主机 中 排队 ， 或 者 阻塞 产生 这 些 数据 包 的 应 用 程序 ， 直 到 网 络 能 妥善 地 处 
理 数据 包 为 止 。 

所 有 基于 数据 报 的 网 络 层 ， 包 括 IP 和 以 太 网 ， 都 依靠 端 - 端的 流量 控制 。 也 就 是 说 ， 发 送 结 点 必 
须 基 于 收 到 的 接收 方 的 信息 降低 其 发 出 数据 包 的 速率 。 要 为 发 送 结 点 提供 拥塞 信息 ， 可 以 通过 显 式 地 
传输 一 个 请 求 减 少 传输 率 的 特殊 消息 〈 被 称 为 阻塞 数据 包 ) ， 也 可 以 通过 实现 一 个 专门 的 传输 控制 协 
议 (TCP 的 名 字 也 由 此 而 来 ，3. 4. 6 节 将 解释 TCP 中 的 机 制 ) ， 或 通过 观察 丢弃 数据 包 发 生 的 情况 〈 假 
设 协议 要 确认 每 一 个 数据 包 ) 来 实现 。 

在 一 些 基 于 虚 电路 的 网 络 中 ， 每 个 结 点 可 以 接收 到 拥塞 信息 ， 拥 塞 信息 也 可 以 作用 于 每 个 结 点 。 
尽管 ATM 使 用 虚 电 路 传递 ， 但 它 仍 要 依靠 服务 质量 管理 ( 见 第 20 章 ) 来 保证 每 个 电路 都 能 完成 所 要 
求 的 流量 。 


3.3.7 ”网 际 互 连 


不 同 的 网 络 、 链 路 和 物理 层 协 议 形成 了 不 同 的 网 络 技术 。 局 域 网 络 是 基于 以 太 网 和 ATM 技术 建立 
起 来 的 ， 而 广域网 是 基于 各 种 数字 和 模拟 电话 网 络 、 卫 星 链接 和 广 域 ATM 网 络 建立 的 。 单 个 的 计算 机 
和 局 域 网 则 是 通过 调制 解 调 器 、 无 线 连 接 和 DSL 连接 接 人 互联 网 或 企业 内 部 网 的 。 

为 了 建立 一 个 集成 的 网 络 (互连网 络 ) ， 我 们 必须 集成 许多 子 网 ， 而 它们 各 自 基 于 上 述 某 种 网 络 
技术 。 为 了 实现 集成 ， 需 要 实现 以 下 几 方 面 : 

1) 统一 的 互连网 络 寻 址 方案 ， 使 得 数据 包 可 以 找到 接 入 任 一 子 网 的 任 一 主机 。 

2) 定义 互连网 络 中 的 数据 包 格 式 并 给 出 相应 处 理 规则 的 协议 。 

3) 互 连 组 件 ， 用 于 按照 互连网 络 地 址 将 数据 包 路 由 到 目的 地 ， 可 用 具有 多 种 网 络 技术 的 子 网 传递 
数据 包 。 

对 于 互联 网 而 言 ， 卫 地 址 可 实现 上 面 第 AER, 第 2 个 要 求 是 全 协议 , 第 3 个 要 求 由 称 为 互联 
网 路 由 器 的 组 件 实现 。IP 协议 和 他 寻 址 将 在 3.4 节 详 细 描 述 。 这 里 我 们 将 讨论 互联 网 路 由 器 和 其 他 用 
来 连接 各 网 络 的 组 件 的 功能 。 

图 3-10 展示 了 一 个 英国 大 学 的 企业 内 部 网 的 一 小 部 分 ， 更 多 细节 将 在 后 面 的 小 节 中 加 以 解释 。 这 
里 我 们 要 注意 的 是 ， 图 中 包含 通过 路 由 器 互 连 的 多 个 子 网 的 部 分 。 该 部 分 有 5 个 子 网 ， 其 中 3 个 子 网 
共享 IP 网 络 138. 37. 95 (使 用 了 无 等 级 的 域 间 路 由 方案 ， 见 3.4.3 节 ) 。 图 上 的 数字 是 P 地 址 ， 它 们 
的 结构 将 在 3.4.1 节 中 解释 。 图 上 的 路 由 器 是 多 个 子 网 的 成 员 ， 它 们 在 每 个 子 网 中 都 有 一 个 IP 地址 
(地 址 就 写 在 连接 的 链 路 上 ) o 

路 由 器 (主机 和 名: hammer 和 sickle) 实际 上 是 一 个 通用 的 计算 机 ， 也 能 完成 其 他 任务 ， 其 中 一 个 
任务 是 作为 防火 墙 使 用 。 防 火 墙 的 作用 和 路 由 功能 是 紧密 相关 的 ， 我 们 将 在 下 面 讨 论 这 一 点 。 
138. 37. 95. 232/29 子 网 在 下层 并 没有 和 网 络 中 的 其 他 部 分 相连 。 只 有 文件 服务 器 custard 可 以 访问 它 ， 
该 服务 器 在 与 其 相连 的 打印 机 上 通过 一 个 服务 器 进程 (监控 和 控制 打印 机 的 使 用 ) 提供 打印 服务 。 
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图 3-10 大 学 校园 网 的 部 分 简 图 


图 3-10 中 所 有 的 链 路 都 是 以 太 网 。 大 部 分 链 路 的 带宽 是 100Mbps， 但 有 一 个 链 路 的 带宽 是 
1000Mbps， 因 为 它 支持 着 大 量 学 生 使 用 的 计算 机 与 承载 所 有 文件 的 文件 服务 器 custard 间 的 巨大 数据 
流量 。 

在 图 示 的 这 部 分 网 络 中 ， 有 两 个 以 太 网 交换 机 和 几 个 以 太 网 集线器 。 两 者 对 IP 数据 包 来 说 都 是 透 
明 的 。 以 太 网 集线器 只 是 一 种 将 以 太 网 电缆 的 多 个 段 连接 在 一 起 的 手段 ， 在 网 络 协议 层 ， 这 些 段 形成 
一 个 以 太 网 。 主 机 收 到 的 所 有 以 太 网 数据 包 将 转播 到 所 有 的 段 。 以 太 网 交换 机 连接 了 儿 个 以 太 网 ,用 
于 将 进入 的 数据 包 路 由 到 目的 主机 所 在 的 以 太 网 中 。 

路 由 器 我们 已 经 提 到 ， 除 了 像 以 太 网 和 无 线 网 络 (这 些 网 络 中 的 主机 由 一 种 传输 介质 连接 )， 
其 他 所 有 网 络 都 需要 路 由 。 图 3-7 显示 了 一 个 由 6 条 链 路 连接 5 个 路 由 器 组 成 的 网 络 。 在 一 个 互连网 
络 中 ， 可 由 直接 连接 将 路 由 器 链接 起 来 〈 见 图 3-7) ， 也 可 以 通过 子 网 将 路 由 器 互 连 ， 如 图 3-10 中 的 
eustard。 在 这 两 种 情况 下 ， 路 由 器 都 负责 将 从 任 一 连接 来 的 互连网 络 数据 包 准 确 地 发 送 到 下 一 条 连接 。 
路 由 器 也 因为 这 个 目的 而 维护 路 由 表 。 

网 桥 ”网 桥 链 接 不 同 种 类 的 网 络 。 一 些 网 桥 链 接 几 个 网 络 ， 它 们 也 被 称 为 网 桥 / 路 由 器 ， 因 为 它们 也 表 
现 出 了 路 由 的 功能 。 例 如 ， 更 大 的 校园 网 包括 一 个 光纤 分 布 式 数 据 接口 (Fibre Distributed Data Interface, 
FDDI) 主干 (没有 在 图 3-10 中 显示 ) ， 它 就 是 由 网 桥 / 路 由 器 连接 到 图 3- 10 中 的 以 太 网 子 网 中 的 。 

集线器 ”集线器 是 将 主机 、 以 太 网 和 其 他 广播 型 局 域 网 技术 的 扩展 网 段 连接 起 来 的 一 种 方便 的 手 
BR. CRS MAM (通常 有 4 ~64 个 ) ， 每 一 个 揪 槽 都 可 以 连接 一 台 计算 机 。 它 们 也 用 于 克服 单个 网 段 
带 来 的 距离 上 的 限制 ， 提 供 添 加 额外 主机 的 途径 。 

交换 机 ”交换 机 的 功能 与 路 由 器 相似 , 但 路 由 器 只 用 于 局 域 网 (一般 是 以 太 网 )。 也 就 是 说 , 它 
们 将 多 个 分 离 的 以 太 网 互 连 ， 将 到 达 的 数据 包 路 由 到 适当 的 外 出 网 络 中 。 它 们 在 以 太 网 的 网 络 协议 层 
上 完成 这 一 任务 。 起 初 它们 对 互连网 络 有 多 大 范围 一 无 所 知 ， 通 过 观察 数据 流量 以 及 在 缺少 信息 时 采 
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取 广 播 请 求 的 方式 建立 其 路 由 表 。 

与 集线器 相 比 ， 交 换 机 的 好 处 是 它 分 离 了 到 达 的 流量 ， 仅 在 相关 的 外 出 网 络 上 传输 数据 包 ， 减 少 
了 所 连接 网 络 的 拥塞 。 

隧道 ”网 桥 和 路 由 器 通过 网 络 层 协议 和 一 个 互连网 络 协议 的 转换 ， 实 现在 各 种 底层 网 络 上 传输 互 连 
网 络 数据 包 ， 不 过 在 一 种 情形 下 ， 底 层 网 络 协议 可 以 被 隐藏 起 来 不 被 其 上 的 层 看 到 ， 不 需要 使 用 互连网 
络 协议 。 当 一 对 连接 到 同一 类 型 的 两 个 网 络 中 的 结 点 需要 通过 另 一 种 类 型 的 网 络 进 行 通信 时 ， 它 们 之 间 
通过 构造 协议 “隧道 ”来 达到 这 一 目标 。 协 议 隧 道 其 实 就 是 在 相 异 网 络 环境 中 传输 数据 包 的 软件 层 。 

下 面 类 比 解释 了 选择 “隧道 ”这 一 术语 的 原因 ， 同 时 也 提供 了 另 一 种 方式 来 思考 赚 道 的 含义 。 穿 
山 隧 道 使 得 车 辆 通过 成 为 可 能 ， 如 果 没 有 隧道 这 是 不 可 能 实现 的 。 公 路 是 连续 的 ， 隧 道 对 于 应 用 (车 
辆 ) 来 说 是 透明 的 。 公 路 是 传输 机 制 ， 而 隧道 使 得 它 能 在 相 异 的 环境 中 工作 。 

图 3-11 显示 的 是 隧道 的 一 种 建议 使 用 IPv6 封 装 在 IPv4 数 据 包 中 








方法 ， 它 支持 从 互联 网 迁移 到 IPY6 协议 。 IPv4 网 络 

IPv6 将 会 取代 现在 使 用 的 下 协议 版 本 IP4， | A Lv ad 一 
但 它们 不 兼容 (IPv4 和 IPv6 的 描述 见 3.4 NX 万 

节 )。 在 向 IPv6 过 渡 的 过 程 中 ，IPv4 的 “ 海 封装 点 

洋 ” 中 会 不 断 出 现 Px6“ 岛 是 ”。 在 图 3-11 

中 ，A 和 B 就 是 这 样 的 岛屿 。 在 岛屿 的 边界 图 3-11 IPv6 迁移 使 用 的 隧道 


处 ，IPv6 数据 包 被 封装 成 Pv4 的 格式 ， 并 以 该 种 方式 在 IPv4 网 络 中 传输 。 

看 另 一 个 例子 ,移动 协议 (其 描述 见 3.4.5 节 ) 通过 建立 从 本 地 基站 到 任 一 网 络 位 置 的 隧道 ， 
来 将 IP 数据 包 传 输 到 互联 网 上 的 任何 移动 主机 。 中 间 的 网 络 结 点 不 需要 为 处 理 移 动 IP 协议 而 加 以 修 
改 。 卫 组 播 协议 在 处 理 方式 上 也 与 此 相似 ， 依 靠 一 些 支持 卫 组 播 路 由 的 路 由 器 来 决定 路 由 ， 但 通过 使 
用 标准 IP 地 址 的 路 由 器 来 传输 IP 数据 包 ， 另 一 个 例子 是 在 串 行 链 路 上 传输 IP 数据 包 的 PPP 协议 。 


3.4 互联 网 协议 


本 节 将 介绍 TCP/IP 协议 组 的 主要 特点 ， 并 讨论 在 分 布 式 系统 中 使 用 它们 的 好 处 及 局 限 性 。 

互联 网 的 研究 始 于 20 世纪 70 年 代 早期 的 ARPANET 一 一 第 一 个 大 规模 计算 机 网 络 的 开发 【 Leiner 
et al. 1997] ， 随 着 近 20 年 的 研究 和 开发 ， 互 联网 渐渐 成 形 。 这 项 研究 的 一 个 重要 部 分 是 开发 TCP/IP 
协议 组 ，TCP 指 传 输 控制 协议 ，IP 是 指 网 际 协议 。TCP/IP 和 互联 网 应 用 协议 在 美国 研究 网 络 中 的 广泛 
采用 以 及 最 近 在 许多 国家 的 商业 网 络 中 的 广泛 使 用 ,使 得 全 国 的 网 络 可 以 集成 为 一 个 互连网 络 ， 这 一 
网 络 已 经 迅速 发 展 到 目前 数量 超过 6000 万 主机 的 规模 。 现 在 许多 应 用 服务 和 应 用 层 的 协议 〈 列 在 下 面 
的 各 个 括号 内 ) 都 是 基于 TCP/IP 的 , 包括 Web (HITP)、 电 子 邮 件 (SMTP、POP)、 网 络 新 闻 
(NNTP) 、 文 件 传输 (FTP) 和 远程 登录 (telnet) 。TCP 是 一 个 传输 协议 ， 它 可 以 直接 支持 应 用 程序 ， 
也 可 以 将 附加 的 协议 加 在 它 上 面 ， 以 提供 额外 的 特点 。 例 如 ， 通 常 HTTP 传输 时 直接 使 用 TCP， 但 当 
需要 端 - 端的 安全 性 时 ， 传 输 层 安全 (TLS) 协议 〈 在 11. 6. 3 节 讨 论 ) 就 会 放 在 TCP 的 上 层 ， 以 建立 
安全 信道 ，HTTP 消息 通过 这 一 安全 信道 传输 。 

最 初 ， 开 发 互联 网 协议 是 用 来 支持 一 些 简单 的 广 域 应 用 ， 如 文件 传输 和 电子 邮件 ， 这 涉及 在 地 理 
上 相隔 很 远 的 、 有 和 较 长 延迟 的 通信 。 但 这 些 协议 已 被 证 明 足 以 有 效 支持 很 多 分 布 式 应 用 的 需求 ， 不 论 
这 些 应 用 是 在 广域网 上 还 是 在 局 域 网 上 ， 它 们 现在 广泛 应 用 于 分 布 式 系统 中 。 通 信 协 议 的 标准 化 带 来 
了 巨大 的 好 处 。 

图 3-6 所 示 的 互连网 络 协议 层 的 一 般 性 说 明 被 翻译 成 图 3-12 所 示 的 互联 网 的 特例 ， 其 中 有 两 个 传 
输 协 议 一 一 TCP (传输 控制 协议 ) 和 UDP (用 户 数据 报 协议 ) TC 是 一 个 面向 连接 的 可 靠 协议 ， 而 
UDP 是 一 个 不 能 保证 可 靠 传输 的 数据 报 协议 。 网 际 协议 (IP) 是 互联 网 虚拟 网 络 的 底层 “网 络 ” 协 
议 ， 也 就 是 说 ， 了 数据 报 为 互联 网 和 其 他 TCP/IP 网 络 提供 了 基本 的 传输 机 制 。 我 们 在 前 面 的 句子 中 
给 “网 络 ” 一 词 加 上 引号 ， 因 为 它 并 不 是 唯一 的 互联 网 通信 实现 所 涉及 的 网 络 层 。 这 是 因为 网 际 协议 
通常 是 在 另 一 个 网 络 技术 之 上 ， 如 以 太 网 ， 它 已 经 提供 了 一 个 网 络 层 ， 该 层 使 得 连接 到 同一 网 络 的 计 
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算 机 可 以 交换 数据 报 。 图 3-13 说 明了 通过 TCP 在 底层 以 太 网 上 传输 消息 的 时 候 数 据 包 的 封装 过 程 。 头 
部 的 标签 给 出 了 上 层 协议 的 类 型 ， 以 便 接收 协议 栈 正确 地 解 开 这 个 数据 包 。 在 TCP 层 ， 接 收 方 的 端口 
号 有 类 似 的 作用 ， 使 得 接收 主机 的 TCP 软件 组 件 可 以 将 消息 送 到 特定 的 应 用 层 进程 中 去 。 

消息 







消息 (UDP) 或 流 (TCP) 
UDP 或 TCP 数 据 包 
IP 数 据 报 


nanena 





图 3-12 TCP/IP JZ 
应 用 层 消 息 


y 
TCP 头 部 


y 
IP 头 部 [TCP 


Ý 
”以 太 网 头 部 
t ， 
以 太 网 帧 
3-13 通过 TCP 在 以 太 网 上 传输 消息 时 发 生 的 封装 


TCP/IP 规约 [Postel 1981a; 1981b] 没有 详细 描述 互联 网 数据 报 层 以 下 的 层 ， 互 联网 层 的 IP 数据 
包 会 转换 成 可 以 在 几乎 任何 底层 网 络 或 数据 链 路 上 传输 的 包 。 
举例 来 说 ， 卫 起 初 运行 在 APPANET 上 ， 这 个 网 络 包括 主机 和 一 些 由 长 距离 数据 链 路 连接 的 早期 
版 本 的 路 由 器 〈 称 为 PSE) 。 如 今 ，IP 实际 上 已 经 用 于 各 种 网 络 技 术 了 ， 包 括 ATM、 局 域 网 (如 以 太 
网 ) 和 令 牌 环 网 。 在 串 行 线路 和 电话 电路 上 通过 PPP 协议 [Parker 1992] KAIP, (49 IP 可 用 于 与 调 
制 解 调 器 连接 和 其 他 串 行 链 路 的 通信 。 
TCP/IP 的 成 功 源 于 它 独立 于 底层 传输 技术 ， 这 使 得 互连网 络 可 以 由 许多 异 构 的 网 络 或 数据 链 路 建 
立 起 来 。 用 户 和 应 用 程序 感知 到 的 是 一 个 支持 TCP 和 UDP 的 虚拟 网 络 ，TCP 和 UDP 的 实现 者 看 到 一 
个 虚拟 人 P 网 络 ， 它 隐藏 了 底层 传输 介质 的 多 样 性 。 图 3- 14 说 明了 这 个 观点 。 
应 用 应 用 
TCP UDP 
IP 


图 3-14 ”编程 者 眼中 TCP/IP 互联 网 的 概念 


下 面 两 节 将 详细 描述 P 寻 址 方案 和 了 人 P 协议 。 用 于 将 互联 网 用 户 很 熟悉 的 www. amazon. com, 
hpl. hp. com, stanford. edu, qmw. ac. uk 这 些 域名 转化 成 全 地 址 的 域名 系统 将 在 3.4.7 节 中 介绍 , 第 9 
章 将 给 出 更 全 面 的 叙述 。 

现在 ,互联 网 上 使 用 的 主要 IP 协议 的 版 本 是 IPv4 (从 1984 年 1 月 开始 )， 这 也 是 我 们 将 在 下 面 两 
小 节 里 讨论 的 版 本 。 但 由 于 互联 网 使 用 的 飞速 发 展 ， 人 们 也 不 得 不 发 布 新 的 卫 版 本 IPv6， 以 克服 IPv4 
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中 地 址 数量 的 限制 并 为 之 增添 功能 以 满足 新 的 需求 。 我 们 将 在 3. 4. 4 节 描述 IPv6。 由 于 大 量 的 软件 将 
受 此 影响 ， 所 以 逐渐 过 渡 到 IPv6 的 计划 将 在 10 年 或 更 长 的 时 间 里 来 完成 。 


3.4.1 IP Sit 


或 许 设计 互联 网 协议 最 富有 挑战 之 处 是 构造 主机 的 命名 和 寻 址 方案 以 及 将 IP 数据 包 路 由 到 目的 地 
的 方案 。 分 配 主机 网 络 地 址 的 方案 和 计算 机 连接 到 它们 的 方案 需要 满足 以 下 一 些 需 求 : 

。 这 必须 是 通用 的 一 一 任何 主机 必须 可 以 发 送 数 据 包 给 互联 网 中 的 任何 其 他 主机 。 

。 地 址 空间 的 使 用 ， 必 须 是 有 效 的 一 一 预知 互联 网 的 最 终 规模 、 网 络 数量 和 所 需 的 主机 地 址 数量 
是 不 可 能 的 。 地 址 空间 必须 仔细 地 分 割 以 确保 地 址 不 会 用 完 。1978 一 1982 年 ， 当 开发 TCP/IP 
协议 时 ,认为 提供 2”( 即 约 和 0 亿 ， 大致 等 于 当时 全 世界 的 人 口 总 数 ) 的 可 寻 址 的 主机 就 足够 
了 。 但 这 种 判断 已 经 被 证 明 是 目光 短 浅 的 ， 原 因 如 下 : 
一 互联 网 的 增长 速度 远 远 超过 了 当初 的 预测 。 
一 地 址 空间 的 分 配 和 使 用 比 预 期 的 要 低 效 得 多 。 


由 到 目的 地 的 信息 。 


寻 址 方案 必须 有 助 于 开发 灵活 有 效 的 路 由 方案 , 但 地 址 本 身 并 不 能 包括 太 多 的 用 于 将 数据 包 路 


所 选 的 方案 为 互联 网 中 的 每 个 主机 都 分 配 一 个 卫 地 址 一 一 一 个 32 比特 的 数字 标识 符 ， 其 中 包括 
一 个 网 络 标识 符 〈 唯 一 标识 了 互联 网 中 的 某 个 子 网 ) 、 一 个 主机 标识 符 〈 唯 一 标识 了 到 该 网 络 的 主机 
HERE) 。 这 些 地 址 将 放 在 IP 数据 包 中 并 被 路 由 到 目的 地 。 
互联 网 地 址 空间 所 采用 的 设计 如 图 3-15 所 示 。 一 共有 4 类 已 分 配 的 互联 网 地 址 一 A、B、C、D。 
D 类 地 址 为 互联 网 组 播 通信 保留 ， 组 播 通信 仅 在 一 些 互 联网 路 由 器 中 实现 ， 其 进一步 的 讨论 见 4.4. 1 
节 。 王 类 地 址 包括 一 些 未 分 配 的 地 址 ， 为 满足 未 来 的 需求 而 保留 。 


D 类 (组 播 


EX OR 


C 类 
D 类 (组 播 ) : 
E (E): 


A% 0 


B% 10 


c% 110 


Dd 8 
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组 播 地 址 
28 
未 使 用 











互联 网 地 址 结构 〈 域 大 小 的 单位 是 比特 ) 


这 些 包含 网 络 标识 符 和 主机 标识 符 的 32 比特 互联 网 地 址 通常 写成 由 点 分 开 的 4 个 十 进 制 数字 序列 。 
每 个 十 进 制 数字 表示 一 个 字 节 或 下 地 址 的 8 比特 组 〈octets) 。 每 一 类 网 络 地址 的 允许 值 如 图 3-16 所 示 。 














8 比特 组 1 8 比特 组 2 ”8 比特 组 3 地 址 范围 
网 络 ID ZD 1.0.0.0 到 
1T 1 1.0.0. j 
l~ Ao o R 0-255 127.255.255.255 
o ig a Ta - 1 128.0.0.0 到 
128 ~ 191 A .- 0 ~255 191.255.285.255 
i s Sag T 192.0.0.0 到 
192 ~ 223 ame 0-259 1~ 254 993.255.255.255 
: - saz 224.0.0.0 到 
57524239 0-255 0-255 o 224.0008 os 
"0-235; 075 0-255 1-254 | 240.0.0.0] 








图 3-16 十 进 制 的 互联 网 地 址 
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三 类 地 址 用 于 满足 不 同类 型 组 织 的 需要 。A 类 地 址 (在 每 个 子 网 中 能 容纳 2 BERL) 是 为 非常 大 
的 网 络 准备 的 ， 例 如 US NSFNet 和 其 他 全 国 性 的 广域网 。B 类 地 址 可 分 配给 网 络 中 的 计算 机 超过 255 
EKHAR, T C 类 地 址 则 是 分 配给 所 有 其 他 的 网 络 。 

主机 标识 符 为 0 和 全 1 (二 进 制 ) 的 互联 网 地 址 将 留 作 特殊 用 途 。 主 机 标识 符 为 0 的 地 址 代表 
“本 机 ”， 若 主机 标识 符 为 全 1， 则 表示 这 是 一 个 广播 消息 ， 并 将 消息 发 送 到 与 地 址 的 网 络 标识 符 部 分 
指定 的 网 络 连 接 的 主机 上 。 

网 络 标识 符 是 由 互联 网 编号 管理 局 (IANA) 分 配给 其 网 络 与 互联 网 相连 的 组 织 。 连 接 到 互联 网 的 
计算 机 的 主机 标识 符 是 由 相关 网 络 的 管理 员 来 分 配 的 。 

既然 主机 的 地 址 包括 一 个 网 络 标识 符 ， 那么 连接 到 多 个 网 络 的 计算 机 必须 在 每 个 网 络 中 都 有 独立 
的 地 址 。 每 次 计算 机 移 到 一 个 新 的 网 络 ， 它 的 互联 网 地 址 必须 改变 。 这 些 需 求 导 致 了 实质 性 的 管理 开 
销 ， 在 使 用 便携 计算 机 的 情况 下 就 会 有 这 种 开销 。 

IP 地 址 分 配方 案 在 实际 中 并 不 是 很 有 效 。 主 要 的 困难 是 ， 用 户 组 织 中 的 网 络 管理 员 不 能 很 容易 地 
预测 出 未 来 他 们 对 主机 地 址 需求 的 增长 ， 一 般 都 会 过 高 地 估计 ， 从 而 选择 B 类 地 址 。 到 了 1990 年 前 
后 ,按照 当时 的 人 P 地 址 分 配 速 度 ， 到 1996 年 前 后 就 可 能 用 完 所 有 的 地 址 。 当 时 采取 了 三 个 步 又。 第 
一 步 是 开始 开发 新 的 四 协议 和 寻 址 方案 ,结果 也 就 是 现在 的 IPv6。 

第 二 步 是 从 根本 上 修改 全 地 址 的 分 配方 案 。 一 个 新 的 旨 在 更 加 有 效 地 利用 P 地 址 空间 的 地 址 分 
配 和 有 路 由 方案 诞生 了 ， 该 方案 称 为 无 等 级 域 间 路 由 (CIDR) ， 我 们 将 在 3.4.3 节 中 讨论 CIDR。 图 3-10 
中 的 局 域 网 拥有 多 个 C 类 地 址 规模 的 子 网 ， 从 138. 37. 88 ~ 138. 37. 95 ， 这 些 子 网 通过 路 由 器 连接 。 路 
由 器 负责 将 IP 数据 包 传送 到 所 有 的 子 网 ， 同 时 也 负责 处 理子 网 间 和 子 网 到 互联 网 其 他 部 分 的 流量 。 该 
图 也 说 明了 使 用 CIDR 划分 一 个 B 类 地 址 空间 ， 形 成 若干 C 类 地 址 规模 的 子 网 。 

第 三 步 是 使 未 注册 的 计算 机 能 通过 实现 了 网 络 地 址 翻译 (NAT) 方案 的 路 由 器 间接 地 访问 互联 网 。 
我 们 在 3.4.3 节 讨 论 该 方案 。 


3.4.2 IP HY 


P 协议 将 数据 报 从 一 个 主机 传 到 另 一 个 主机 ， 如 果 需 要 的 话 还 会 经 过 中 间 路 由 器 。 完 整 的 IP 数据 
包 格 式 是 相当 复杂 的 ， 图 3-17 给 出 了 其 主要 组 成 部 分 。 有 一 些 头 部 域 没有 显示 在 图 中 ， 它 们 是 用 于 传 
输 和 路 由 算法 的 。 
部 一 一 一 一 一 一 一 


k 
WIPE = RMI BR 
至 多 64KB 


图 3-17 PARE 


IP 提供 的 传输 服务 被 描述 成 有 不 可 靠 或 尽力 而 为 这 样 的 传输 语义 ， 因 为 没有 传输 上 的 保证 。 数 据 
包 可 能 会 丢失 、 重 复 、 延 迟 或 顺序 错误 , 但 这 些 错 误 只 在 底层 网 络 失败 或 目的 地 缓冲 区 满 的 时 候 才 会 
RE. P 中 唯一 的 校 验 和 是 头 部 的 校 验 和 ， 其 计算 代价 不 高 ， 还 能 确保 检测 到 任何 寻 址 和 数据 包 管理 
数据 中 发 生 的 错误 。 它 没有 提供 数据 的 校 验 和 ， 这 避免 了 经 过 路 由 器 时 的 开销 ， 而 是 让 更 高 层 的 协议 
(TCP 和 UDP) 来 提供 它们 自己 的 校 验 和 一 一 这 是 端 对 端 争论 中 的 一 个 实际 例子 (参见 2.3.3 节 ) 。 

人 P 层 将 四 数据 报 放 人 适合 底层 网 络 ( 例 如 以 太 网 ) 传输 的 网 络 数 据 包 中 。 当 四 数据 报 的 长 度 大 
于 底层 网 络 的 MTU 时 ， 就 在 发 送 端 将 IP 数据 报 分 割 成 多 个 小 的 数据 包 ， 然 后 在 目的 地 重新 组 装 。 数 
据 包 还 可 以 进一步 分 割 以 适合 从 源 地 址 到 目的 地 址 的 路 径 中 所 经 过 的 网 络 〈 每 个 数据 包 都 有 一 个 片断 
标识 符 ， 使 得 打 乱 顺序 的 各 个 段 能 够 重新 组 合 起 来 ) 。 

IP 层 还 必须 在 底层 网 络 中 插入 消息 目的 地 的 “物理 ”网 络 地 址 。 该 地 址 可 以 从 互联 网 网 络 接口 层 
的 地 址 解析 模块 获得 〈 见 下 一 小 节 的 介绍 ) 。 

地 址 解析 ”地 址 解析 模块 负责 将 互联 网 地 址 转 为 特定 底层 网 络 所 使 用 的 网 络 地 址 〈 有 时 称 为 物理 
地 址 ) 。 例 如 ， 如 果 底 层 网 络 是 以 太 网 ， 那 么 地 址 解析 模块 将 把 32 比特 的 互联 网 地 址 转换 成 48 比特 的 
以 太 网 地 址 。 
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这 种 转换 是 与 网 络 技术 相关 的 ， 

。 有 一 些 主机 直接 与 互联 网 数据 包 交 换 机 相连 ， 卫 数据 包 可 以 不 需要 地 址 翻译 就 路 由 到 它们 。 

。 一 些 局 域 网 允许 动态 地 将 网 络 地 址 分 配给 主机 ， 这 样 就 可 以 方便 地 选择 地 址 以 匹配 互联 网 地 址 
中 的 主机 标识 符 部 分 一 一 番 译 就 是 从 下 地 址 中 抽取 主机 标识 符 。 

对 于 以 太 网 和 其 他 局 域 网 ， 每 个 计算 机 的 网 络 地 址 都 是 和 它 的 网 络 硬件 接口 固定 的 ， 和 互联 网 
地 址 没有 直接 的 关系 一 一 翻译 取决 于 主机 的 IP 地 址 和 以 太 网 地 址 间 的 对 应 关系 ， 其 具体 实现 
是 通过 地 址 解析 协议 〈ARP) 完成 的 。 

现在 我 们 概述 一 下 以 太 网 中 ARP 的 实现 。 为 了 能 在 计算 机 加 入 局 域 网 时 让 正 数 据 包 在 以 太 网 上 
传输 ， 使 用 了 动态 询问 并 利用 缓存 来 减少 询问 消息 。 先 考虑 同一 个 以 太 网 中 一 个 主机 用 IP 向 另 一 个 主 
机 传送 消息 的 情况 。 发 送 方 的 IP 软件 模块 在 发 送 数据 包 前 ， 必 须 将 IP 数据 包 中 的 接收 方 的 互联 网 地 
址 翻译 成 以 太 网 地 址 。 它 调用 发 送 方 的 ARP 模块 来 完成 这 一 任务 。 

每 个 主机 上 的 ARP 模块 都 维护 一 个 缓存 ,保存 它 以 前 获得 的 《下 地址， 以 太 网 地 址 ) 对 。 如 果 需 
要 的 IP 地 址 位 于 这 个 缓存 中 ， 请 求 就 会 立刻 被 应 答 。 如 果 没 有 需要 的 IP 地 址 ，ARP 模块 会 在 本 地 的 
以 太 网 上 发 出 一 个 以 太 网 广播 数据 包 (ARP 请 求 数据 包 ) ， 数 据 包 中 包括 了 所 需 的 中 地址。 本 地 以 太 
网 中 的 每 个 计算 机 都 收 到 这 个 ARP 请 求 数据 包 ， 并 用 自己 的 中 地 址 和 数据 包 中 的 IP 地 址 进行 匹配 。 
如 果 匹 配 ， 就 给 ARP 请 求 的 发 出 方 发 送 一 个 ARP 应 答 ， 应 答 中 包括 自己 的 以 太 网 地 址 ; 如 果 不 匹配 ， 
就 忽略 该 数据 包 。 发 出 方 的 ARP 模块 在 自己 的 本 地 〈 了 正 地址 ， 以 太 网 地 址 ) 缓存 中 加 入 新 的 下 地 址 
到 以 太 网 地 址 的 映射 表 ， 这 样 将 来 如 果 响 应 类 似 的 ARP 请 求 就 不 需要 再 广播 了 。 一 段 时 间 之 后 ， 每 个 
计算 机 上 的 ARP 缓存 中 都 包含 了 所 有 计算 机 的 《下 地址 ， 以 太 网 地 址 ) 对 。 这 时 只 有 在 有 新 计算 机 加 
入 到 本 地 以 太 网 时 才 需 要 ARP 广播 。 

PAR 我 们 已 经 看 到 ，IP 数据 包 中 包括 一 个 源 地 址 一 一 发 送 方 计算 机 的 下 地 址 。 它 与 封装 在 
数据 域 中 的 端口 地 址 (对 于 TCP A UDP 数据 包 ) 一 起 ， 经 常 被 服务 器 用 来 生成 一 个 返回 地 址 。 遗 憾 的 
是 ， 并 不 能 保证 给 定 的 源 地 址 就 是 真正 的 发 送 方 的 地 址 。 心 怀 世 测 的 发 送 者 可 以 轻易 地 使 用 别 的 地 址 
来 代替 它 。 这 个 漏洞 已 成 为 多 起 著名 攻击 的 源头 ,包括 1. 5. 3 节 提 到 的 2000 年 2 月 出 现 的 分 布 式 拒绝 
服务 攻击 [Farrow 2000] 。 所 使 用 的 方法 就 是 在 几 个 站 点 向 大 量 的 计算 机 发 出 ping ER (ping 是 一 个 
简单 的 服务 ， 用 于 检查 主机 的 可 用 性 ) 。 这 些 恶 意 的 ping 请 求 在 它们 的 发 送 方 地 址 域 中 都 填 上 了 目标 
计算 机 的 下 地 址 ， 因 此 ping 的 应 答 就 指向 目标 计算 机 ， 造 成 它们 的 输入 缓冲 溢出 ， 造 成 合法 的 正 数 
据 包 无 法 通过 。 这 种 攻击 将 在 第 11 章 中 进一步 讨论 。 


3.4.3 IP 路 由 


IP 层 将 数据 包 从 源 地 址 路 由 到 目的 地 址 。 互 联网 上 的 每 个 路 由 器 都 实现 了 P 层 的 软件 ， 用 以 提供 
一 个 路 由 算法 。 

主干 “互联 网 的 拓扑 图 在 概念 上 被 分 割 成 自治 系统 (Autonomous System，AS) ， 再 被 细 分 为 区 域 。 
大 多 数 大 型 机 构 〈 如 大 学 和 大 公司 ) 的 企业 内 部 网 可 看 做 AS， 通 常 它 们 包含 几 个 区 域 。 在 图 3- 10 H, 
校园 网 是 一 个 AS， 图 中 显示 的 部 分 是 一 个 区 域 。 拓 扑 图 上 的 每 个 AS 都 有 一 个 主干 区 域 。 将 非 主干 区 
域 连接 到 主干 区 域 的 路 由 器 集合 ， 以 及 将 这 些 路 由 器 互 连 的 链 路 构成 了 网 络 的 主干 。 主 干 中 的 链 路 通 
常 带 宽 很 高 ， 并 且 为 保证 可 靠 性 ， 链 路 都 被 复制 。 这 样 的 层次 结构 仅 存 在 于 概念 中 ， 主 要 用 于 管理 资 
源 与 维护 组 件 。 它 并 不 影响 IP 数据 包 的 路 由 。 

路 由 协议 ”RIP-1 作为 互联 网 上 使 用 的 第 一 个 路 由 算法 ， 是 3. 3. 5 节 中 描述 的 距离 一 一 向 量 算法 的 
一 个 版 本 。RIP-2 (W, RFC 1388 [Malkin 1993]) 由 它 发 展 而 来 ， 但 包含 了 其 他 需求 ， 如 无 类 别 域 间 路 
由 、 更 好 的 组 播 路 由 以 及 认证 RIP 数据 包 以 避免 路 由 器 受到 攻击 。 

随 着 互联 网 规模 的 扩大 ， 路 由 器 的 处 理 能 力也 不 断 增加 ， 不 再 使 用 曰 离 一 一 向 量 算法 已 成 为 一 个 
趋势 ， 因 为 它 收 伍 速度 慢 ， 并 且 具 有 潜在 的 不 稳定 性 。 现 在 趋向 于 使 用 3.3.5 节 中 提 到 的 链 路 - 状态 
算法 ， 这 个 算法 被 称 为 开放 最 短路 径 优先 (Open Shortest Path First，OSPF ) 。 该 协议 基于 Dijkstra 
[1959] 的 路 径 寻 找 算法 ， 它 比 RIP 算法 收敛 得 更 快 。 
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应 当 注 意 ,， 在 正路 由 器 中 可 以 渐进 地 采纳 新 路 由 算法 。 路 由 算法 的 变化 将 导致 新 版 本 RIP 协议 的 
诞生 ， 而 每 个 RIP 数据 包 会 携带 一 个 版 本 号 。 当 引入 一 个 新 的 RIP PAY, IP 协议 并 不 改变 。 无 论 使 
用 哪个 版 本 的 RIP 协议 ，IP 路 由 器 都 会 基于 一 个 合理 的 〈 未 必 是 最 优 的 ) 路 线 ， 将 到 达 的 数据 包 转 发 
出 去 。 但 是 对 于 那些 在 更 新 路 由 表 过 程 中 需要 合作 的 路 由 器 ， 它 们 必须 使 用 相同 的 算法 。 为 此 ， 需 要 
使 用 上 面 定义 的 拓扑 区 域 。 在 每 个 区 域 中 使 用 一 个 路 由 协议 ， 区 域 中 的 路 由 器 在 维护 路 由 表 时 相互 合 
作 。 只 支持 RIP-1 的 路 由 器 依然 很 常见 ， 它 们 利用 新 版 本 协议 具有 的 向 后 兼容 特性 ， 与 支持 RIP-2 和 
OSPF 的 路 由 器 共存 。 

1993 年 ， 实 际 观测 获得 的 数据 [ Floyd and Jacobson 1993] 表明 ，RIP 路 由 器 的 信息 交换 频率 为 
30s， 这 会 使 他 传输 性 能 产生 周期 性 。 卫 数据 包 传输 的 平均 延迟 每 隔 30s 就 会 出 现 一 个 尖峰 。 这 可 以 追 
湖 到 执行 RIP 协议 的 路 由 器 的 行为 一 一 当 接 收 到 一 个 RIP 数据 包 时 ， 路 由 器 会 延迟 P 数据 包 的 向 前 传 
送 ， 直 到 路 由 表 对 当前 收 到 的 所 有 RIP 数据 包 的 更 新 过 程 结束 。 这 会 引起 路 由 器 一 批 一 批 地 执行 RIP 
动作 。 建 议 路 由 器 采用 15 ~45s 范围 内 的 随机 值 作为 RIP 的 更 新 周期 以 进行 纠正 。 

默认 路 由 到 用 前 为 止 ， 我 们 对 路 由 算法 的 讨论 说 明 ， 每 个 路 由 器 维护 了 一 个 完整 的 路 由 表 ， 该 
表 显 示 了 到 达 互 联网 上 每 个 目的 地 〈 子 网 或 直接 连接 的 主机 ) 的 路 线 。 就 互联 网 当前 的 规模 而 言 ， 这 
显然 不 可 行 〈 目 的 地 的 数目 可 能 已 经 超过 了 100 万 ， 而 且 仍 在 快速 地 增长 ) 。 

该 问题 有 两 个 可 能 的 解决 方案 ， 为 缓解 互联 网 的 增长 所 带 来 的 后 果 ， 这 两 个 方案 同时 被 采纳 。 第 
一 个 方案 是 采用 某 种 形式 的 IP 地 址 拓扑 分 组 。1993 年 以 前 无 法 从 IP 地 址 推 斯 出 有 关 其 位 置 的 任何 信 
息 。1993 年 ， 为 简化 与 节约 下 地 址 的 分 配 ( 这 在 下 文 的 CDR 中 讨论 ) ， 对 未 来 地 址 的 分 配 决定 使 用 
下 面 的 地 区 位 置 : 

地 址 194. 0. 0. 0 ~ 195. 255. 255. 255 在 欧洲 

地 址 198. 0. 0. 0 ~ 199. 255. 255. 255 在 北美 地 区 

地 址 200. 0. 0. 0 ~ 201. 255. 255. 255 在 中 南美 地 区 

地 址 202. 0. 0. 0 ~ 203. 255. 255. 255 在 亚太 地 区 

因为 这 些 地 理 区 域 也 对 应 于 互联 网 上 确切 定义 的 拓扑 区 域 ， 并 且 仅 有 部 分 网 关 路 由 器 提供 了 对 每 
个 区 域 的 访问 ， 所 以 极 大 地 简化 了 这 些 地 址 范围 的 路 由 表 。 例 如 ， 欧 洲 以 外 的 路 由 器 对 于 范围 在 
194. 0. 0. 0 到 195. 255. 255. 255 的 地 址 ， 可 以 只 有 一 个 表 项 。 路 由 器 将 所 有 目的 地 在 这 个 范围 内 的 IP 
数据 包 使 用 相同 的 路 由 发 送 到 最 近 的 欧洲 网 关 路 由 器 上 。 注 意 ， 在 做 出 这 个 决策 之 前 ，TP 地 址 的 分 配 
通常 与 拓扑 或 地 理 位 置 无 关 ， 目 前 这 些 地 址 的 大 部 分 仍 在 使 用 ，1993 年 的 决策 无 法 减少 这 些 地 址 对 应 
路 由 表 项 的 规模 。 

解决 路 由 表 大 小 爆炸 性 增长 的 第 二 个 解决 方案 更 简单 而 且 非 常 有 效 。 它 基于 下 述 观 察 结果 ， 如 
果 离 主干 链 路 最 近 的 关键 路 由 器 具有 比较 完整 的 路 由 表 ， 那 么 大 多 数 路 由 器 中 的 路 由 表 信 息 的 精确 
性 可 以 放宽 。 放 宽 的 表现 形式 为 路 由 表 中 具有 默认 的 目的 地 项 ， 此 默认 项 指定 了 所 有 目的 地 址 不 在 
路 由 表 中 的 人 P 数据 包 所 使 用 的 路 由 。 为 了 说 明 这 种 情况 ， 考 虑 图 3-7 与 图 3-8， 假 设 结 点 C 的 路 由 表 
改 为 : 








路 由 : 从 C 















链 路 
2 


结 点 C 忽略 了 结 点 A 与 D。 它 将 所 有 到 达 结 点 A 与 D 的 数据 包 都 通过 链 路 5 路 由 到 了。 结果 呢 ? 
目的 地 为 D 的 数据 包 可 以 到 达 其 目的 地 ， 在 路 由 过 程 中 不 会 损失 有 效 性 ,但 目的 地 为 A 的 数据 包 会 增 
WMD, 需要 通过 E MB 进行 传输 。 总 之 ， 默认 路 由 的 使 用 在 表格 大 小 与 路 由 有 效 性 之 间作 出 了 折 中 。 
但 在 有 些 情 况 下 ， 特 别 是 路 由 器 在 中 继 点 位 置 时 ， 所 有 向 外 发 送 的 消息 必须 通过 某 一 个 点 ， 些 时 不 会 
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损失 有 效 性 。 默 认 路 由 方案 在 互联 网 路 由 中 使 用 很 广泛 ， 互 联网 上 没有 一 个 路 由 器 包含 到 达 所 有 目的 
地 的 路 由 。 

本 地 子 网 上 的 路 由 当 数 据 包 的 目的 地 主机 与 发 送 者 在 同一 网 络 上 时 ， 利 用 地 址 的 主机 标识 符 部 
分 可 获得 底层 网 络 上 的 目的 主机 的 地 址 ， 只 需 一 跳 就 能 将 数据 包 传送 到 目的 地 。 卫 层 使 用 ARP 来 获得 
目的 地 的 网 络 地 址 ， 然 后 使 用 底层 网 络 来 传输 数据 包 。 

如 果 发 送 方 计算 机 的 下 层 发 现 目的 地 在 男 一 个 网 络 上 ， 它 必须 将 消息 发 送 到 一 个 本 地 有 路由器。 它 
使 用 ARP 获得 网 关 或 路 由 器 的 网 络 地 址 ， 再 使 用 底层 网 络 将 数据 包 传送 给 它们 。 网 关 和 路 由 器 被 连接 
到 两 个 或 更 多 的 网 络 上 ， 它 们 具有 多 个 互联 网 地 址 ， 每 个 地 址 对 应 一 个 所 连接 的 网 络 。 

无 类 别 域 间 路 由 (CDR) 3.4.1 节 指 出 ， 卫 地 址 的 短缺 导致 1996 年 引入 CDR 方案 ,该 方案 用 
于 分 配 地 址 以 及 管理 路 由 表 中 的 项 。 主 要 问题 在 于 B 类 地 址 不 足 ，B 类 地 址 用 于 那些 具有 255 个 以 上 
主机 的 子 网 ， 同 时 又 有 大 量 的 C 类 地 址 可 用 。CIDR 对 这 个 问题 的 解决 方案 是 给 那些 需要 255 个 以 上 地 
址 的 子 网 分 配 一 批 连续 的 C 类 地 址 。CIDR 方案 也 允许 将 B 类 地 址 空间 分 市， 以便 把 它 分 配给 多 个 
子 网 。 

将 C 类 地 址 分 批 似 乎 是 一 个 简单 的 方法 ， 但 除非 同时 改变 路 由 表 的 格式 ， 它 才 会 对 路 由 表 的 大 小 
产生 显著 的 影响 ， 进 而 影响 管理 路 由 表 的 算法 的 性 能 。 改 变 路 由 表 的 方法 是 给 路 由 表 增 加 一 个 掩 码 域 。 
掩 码 是 一 个 位 模式 ， 用 于 选择 与 路 由 表 项 比较 的 IP 地 址 部 分 。 这 有 效 地 使 主机 / 子 网 地 址 成 为 IP 地 址 
的 任意 部 分 ， 比 A 类 、B 类 与 C 类 地 址 提供 了 更 大 的 灵活 性 ， 无 类 别 域 间 路 由 也 因此 得 名 。 同 样 ， 路 
由 器 的 这 些 改变 是 增 量 式 的 ， 所 以 有 些 路 由 器 执行 CIDR， 而 其 他 路 由 器 仍然 使 用 旧 的 基于 类 别 的 
算法 。 

该 方案 可 以 工作 的 原因 是 新 分 配 的 C 类 地 址 的 范围 是 256 的 模 ， 因 此 每 个 范围 表示 了 C 类 大 小 的 
子 网 地 址 对 应 的 一 个 整数 值 范围 。 另 一 方面 ， 有 些 子 网 也 使 用 CIDR 划分 单个 网 络 中 的 地 址 范围 ， 这 
个 网 络 可 以 是 A 类 、B 类 或 C 类 网 络 。 如 果 一 组 子 网 完全 由 CIDR 路 由 器 与 外 部 世界 相连 接 ， 那 么 该 
组 子 网 的 瑟 地 址 范围 可 以 成 批 分 配 到 每 个 子 网 中 ， 其 中 由 任意 大 小 的 二 进 制 掩 码 决 定子 网 。 

例如 ,一 个 C 类 地 址 空间 可 以 划分 为 32 组 的 8 地 址 空间 。 图 3- 10 包含 一 个 使 用 CIDR 机 制 将 
138. 37. 95 这 样 的 C 类 地 址 规模 的 子 网 划分 为 多 个 组 ， 每 组 包含 8 个 主机 地 址 ， 每 个 地 址 的 路 由 不 同 。 
不 同 的 组 用 138. 37. 95. 232/29 以 及 138. 37. 95. 248/29 等 符号 表示 。 这 些 地 址 中 的 /29 表示 附加 一 个 32 
的 掩 码 ， 前 29 位 是 1, 后 3 位 是 0。 

未 注册 的 地 址 和 网 络 地 址 翻译 (NAT) 不 是 所 有 访问 互联 网 的 计算 机 和 设备 都 需要 分 配 全 局 唯 
一 的 中 地 址 。 局 域 网 中 的 计算 机 通过 具有 NAT 功能 的 路 由 器 访问 互联 网 ， 它 依靠 路 由 器 将 到 达 的 
UDP 和 TCP 包 重 定向 。 图 3-18 给 出 了 一 个 典型 的 家 庭 网 络 ， 其 中 的 计算 机 和 其 他 网 络 设备 通过 一 个 具 
A NAT 功能 的 路 由 器 与 互联 网 相连 。 网 络 包括 能 访问 互联 网 的 计算 机 ， 它 们 通过 有 线 以 太 网 连接 到 路 
由 器 ， 还 包括 通过 WiFi 接 人 点 连接 的 设备 。 为 了 保证 完整 性 ， 图 中 给 出 了 一 些 具 有 蓝牙 功能 的 设备 ， 
但 它们 不 是 与 路 由 器 连接 ， 因 此 不 能 直接 访问 互联 网 。 家 庭 网 络 具 有 由 互联 网 服务 提供 商 分 配 的 一 个 
已 注册 的 下 地 址 (83.215.152.95)。 这 里 描述 的 方法 适合 任何 希望 其 没有 注册 IP 地 址 的 计算 机 连接 
到 互联 网 的 组 织 。 

家 庭 网 络 上 所 有 能 访问 互联 网 的 设备 都 被 分 配 了 192. 168. 1. x C 类 子 网 上 的 一 个 未 注册 的 I 地 址 。 
大 多 数 的 内 部 计算 机 和 设备 由 路 由 器 上 运行 的 动态 主机 配置 协议 (Dynamic Host Configuration Protocol, 
DHCP) 动态 分 配 一 个 卫 地 址 。 在 图 3- 18 中 ，192. 168. 1. 100 以 上 的 数字 由 DHCP 服务 使 用 ， 数 字 较 
小 的 结 点 (例如 PC 1) 已 经 以 手工 方式 分 配 了 数字 ， 这 样 做 的 理由 将 在 后 面 解释 。 虽 然 NAT 路 由 器 使 
得 这 些 地 址 对 互联 网 的 其 他 部 分 完全 隐藏 ， 但 通常 使 用 IANA 为 私有 互连网 保留 的 三 块 地 址 
(10. z y. x，172. 16. y. x BY 192. 168. y. x) 之 一 中 的 一 段 。 

NAT 的 介绍 见 RFC 1631 [Egevang and Francis 1994] ， 它 的 扩展 见 RFC 2663 [ Srisuresh and Holdre- 
ge 1999]。 具 有 NAT 功能 的 路 由 器 维护 一 个 地 址 翻译 表 ， 使 用 UDP 和 TCP 包 中 源 端口 和 目的 地 端口 号 
域 ， 将 每 个 到 达 的 应 答 消 息 分 配 到 发 送 该 请 求 消息 的 内 部 计算 机 。 注 意 ， 请 求 消息 中 给 定 的 源 端 口 总 
是 被 用 做 相应 的 应 答 消息 中 的 目的 地 端口 。 
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图 3-18 一 个 典型 的 基于 NAT 的 家 庭 网 络 


最 常用 的 NAT 寻 址 算法 的 工作 流程 如 下 : 

1) 当 内 部 网 络 上 的 计算 机 发 送 一 个 UDP 或 TCP 包 给 网 络 外 的 计算 机 时 ， 路 由 器 接收 到 数据 包 并 
将 源 IP 地 址 和 端口 号 保存 为 地 址 翻译 表 中 一 个 可 用 的 项 。 

2) 路 由 器 用 路 由 器 的 IP 地 址 替换 包 中 的 源 地址 ， 用 虚拟 端口 号 幸 换 源 端口 ， 虚 拟 端口 号 指向 包 
含 发 送 计 算 机 的 地 址 信息 的 地 址 翻译 表 项 。 

3) 已 修改 源 地 址 和 端口 地 址 的 数据 包 经 路 由 器 向 它 的 目的 地 转发 。 现 在 ， 地 址 翻译 表 包 含 最 新 的 
从 内 部 网 上 计算 机 发 出 的 包 的 端口 号 和 从 虚拟 端口 号 到 实际 内 部 IP 地 址 的 映射 。 

4) 当 路 由 器 从 外 部 计算 机 处 接收 到 一 个 UDP 或 TCP 包 时 ， 它 使 用 包 中 的 目的 地 端口 号 访问 地 址 
翻译 表 中 的 项 。 它 用 存储 在 表 项 中 的 值 蔡 换 已 接收 包 中 的 目的 地 址 和 端口 号 ， 然 后 将 修改 后 的 包 转 发 
到 由 目的 地 地 址 标识 的 内 部 计算 机 。 

只 要 该 端口 还 在 使 用 ， 路 由 器 就 将 保留 端口 映射 并 重用 它 。 每 次 路 由 器 访问 表 中 的 一 项 ， 就 重 设 
计时 器 。 如 果 在 计时 器 过 期 之 前 没有 访问 该 表 项 ， 那 么 就 从 表 中 删除 该 表 项 。 

上 述 方案 很 好 地 解决 了 未 注册 计算 机 的 通信 模式 ， 在 这 种 模式 下 ， 未 注册 计算 机 可 以 作为 外 部 服 
务 (例如 Web 服务 器 ) 的 客户 。 但 未 注册 计算 机 不 能 作为 处 理 到 达 请 求 的 服务 器 。 为 了 处 理 这 种 情 
况 ， 可 以 手工 配置 NAT 路 由 器 ， 将 某 个 指定 端口 上 所 有 到 达 的 请 求 转 发 到 一 台 指 定 的 内 部 计算 机 上 。 
作为 服务 器 的 计算 机 必须 保留 同样 的 内 部 卫 地 址 ， 这 一 点 可 通过 手工 分 配 它们 的 地 址 〈 类 似 对 PC1 所 
做 的 操作 ) 来 达到 。 只 要 不 要 求 多 于 一 台 内 部 计算 机 在 指定 端口 提供 服务 ， 这 种 提供 对 服务 的 外 部 访 
问 的 解决 方法 是 令 人 满意 的 。 

NAT 是 一 种 解决 个 人 和 家 庭 计算 机 分 配 P 地 址 的 短期 解决 方案 。 它 使 得 互联 网 使 用 的 扩张 得 比 预 
期 的 更 大 ， 但 它 也 有 一 些 限制 ， 例 如 上 例 中 的 最 后 一 点 。IPv6 被 看 成 是 未 来 趋势 ， 它 将 使 得 所 有 计算 
机 和 便携 设备 能 全 方位 地 参与 互联 网 。 


3.4.4 IPv6 


人 们 在 寻找 有 关 IPv4 地 址 局 限 问题 的 更 永久 的 解决 方案 ， 这 导致 了 具有 更 大 地 址 空间 的 新 版 本 的 
IP 协 议 的 开发 与 使 用 。 早 在 1990 年 ，IETF 就 注意 到 IPv4 的 32 比特 地 址 所 带 来 的 潜在 问题 ， 并 启动 了 
开发 新 版 本 IP 协议 的 项 目 。1994 Æ, IETF 采纳 了 IPv6， 并且 给 出 了 版 本 迁移 方法 的 建议 。 

图 3-19 显示 了 IPv6 头 的 格式 。 在 此 ， 我 们 不 详细 介绍 它们 的 构造 方法 。 要 获得 有 关 IPv6 的 相关 
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内 容 ， 读 者 可 以 参考 Tanenbaum [2003] 或 Stallings [2002] 。 要 获得 IPv6 设计 过 程 与 实现 计划 详尽 的 
介绍 ， 可 以 参阅 Huitema [1998] 。 这 里 将 概述 IPv6 的 主要 改进 。 


版 本 《4 比特 ) 流量 类 别 (8 比特 ) 流标 号 〈20 比 特 ) 
有 效 负 载 长 度 〈16 比 特 ) BUTS GERO 跳跃 限制 (8 比特 ) 
源 地 址 
(128 比 特 ) 
目的 地 地 址 


(128 比 特 ) 


图 3-19 IPv6 头 部 格式 


”地 址 空间 : IPv6 的 地 址 有 128 比特 (16 字 节 ) 。 这 提供 了 海量 的 可 寻 址 实体 数 : 2”， 即 大 约 3 x 
10”, # Tanenbaum 计算 ， 在 整个 地 球 表面 ， 每 平方 米 空间 可 以 有 7 x10” 个 IP 地 址 。Huitema 的 估计 
比较 保守 ， 他 假设 中 地址 的 分 配 像 电话 号 码 一 样 不 经 济 ， 则 整个 地 球 表 面 的 每 平方 米 空间 (陆地 与 水 
面 ) 可 以 有 1000 ^ IP hE. 

IPv6 地 址 空间 进行 了 分 区 。 在 此 我 们 不 详细 介绍 分 区 ,但 即使 是 最 小 的 分 区 (其 中 的 一 个 分 区 会 
包含 整个 IPv4 地 址 范围 ， 这 里 地 址 的 映射 是 一 对 一 的 ) 也 远 远大 于 整个 IPv4 地 址 空间 。 很 多 分 区 
( 占 总 数 的 72% 左右 ) 被 保留 ， 目 前 为 止 向 未 被 定义 。 两 个 大 的 分 区 〈 每 个 分 区 包含 1/8 的 IP 地 址 空 
间 ) 作为 日 常 使 用 ， 将 被 分 配给 普通 的 网 络 结 点 。 其 中 的 一 个 分 区 根据 地 址 结 点 的 地 理 位 置 组 织 ， 而 
另 一 个 分 区 根据 机 构 位 置 组 织 。 这 提供 了 两 种 不 同 的 用 于 至 类 地 址 的 策略 以 便 进行 路 由 一 一 而 哪 种 将 
更 有 效 或 更 流行 还 有 待 观察 。 

路 由 速度 : 基本 IPv6 头 部 的 复杂 度 以 及 在 每 个 结 点 上 的 处 理 时 间 都 被 降低 。 数 据 包 的 内 容 (有 效 
负载 ) 不 使 用 任何 校 验 和 ， 一 旦 数据 包 开 始 传输 ， 就 不 能 再 将 它 分 段 。 前 者 被 认为 是 可 接受 的 ， 因 为 
可 在 更 高 层 检测 错误 (TC 确实 包含 了 一 个 内 容 校 验 和 )， 而 后 者 通过 支持 在 发 送 数 据 包 前 确定 最 小 
的 MTU 而 达到 目的 。 

实时 以 及 其 他 特殊 服务 : 流量 类 别 与 流标 号 域 与 此 有 关 ， 多 媒体 流 以 及 其 他 实时 数据 元 素 序列 可 
作为 被 标识 的 流 的 一 部 分 传输 。 流 量 类 别 的 前 6 位 可 与 流标 号 同时 使 用 ， 也 可 以 独立 使 用 ， 以 使 指定 
数据 包 比 其 他 数据 包 的 处 理 速度 更 快 或 是 更 可 靠 。 流 量 类 别 值 0 ~8 用 于 即使 有 延迟 也 不 会 对 应 用 造成 
R a A 用 于 传输 依赖 于 时 间 的 数据 包 ， 这 些 数 据 包 或 者 被 迅速 地 发 送 ， 





流标 号 使 得 资源 被 保留， 以 便 满足 特定 实时 数据 流 【例如 有 播 的 音频 与 视频 传输 ) 的 时 间 需求。 
第 17 章 将 讨论 它们 的 资源 分 配 需求 与 分 配方 法 。 当 然 ， 互 联网 上 的 路 由 器 与 传输 链 路 的 资源 有 限 ， 为 
特定 用 户 预 留 资源 的 概念 和 应 用 以 前 未 曾 考虑 。 使 用 IPv6 的 这 些 设施 将 依赖 于 基础 设施 的 增强 ， 以 及 
使 用 合适 的 方法 对 资源 的 分 配 进行 收费 与 仲裁 。 

未 来 的 发 展 : 提供 未 来 发 展 的 关键 是 下 一 个 头 域 。 若 该 域 为 非 0， 则 它 定 义 了 数据 包 中 的 扩展 头 
的 类 型 。 目 前 的 扩展 头 类 型 为 下 列 类 型 的 特殊 服务 提供 附加 数据 ; 路 由 器 信息 、 路 由 定义 、 片 断 处理 、 
认证 、 加 密 信息 以 及 目的 地 处 理 信 息 。 每 个 扩展 头 类 型 具有 明确 的 大 小 以 及 预定 义 的 格式 。 当 出 现 新 
的 服务 需求 时 ， 可 以 定义 进一步 的 扩展 头 类 型 。 扩 展 头 〈 如 果 存 在 的 话 ) 放 在 基本 头 之 后 、 有 效 负载 
之 前 ， 它 会 包含 下 一 个 头 域 ， 使 数据 包 可 以 使 用 多 个 扩展 头 。 

组 播 与 选 播 : IPv4 与 IPv6 支持 将 卫 数 据 包 通过 一 个 地 址 〈 属 于 专 为 组 播 保留 的 地 址 范围 ) 传送 
到 多 个 主机 的 传输 机 制 。IP 路 由 器 负责 将 数据 包 路 由 到 所 有 订阅 了 该 组 〈 这 个 组 由 相关 的 地 址 标识 ) 
的 主机 。IP 组 播 通信 的 详细 描述 可 参见 4. 4. 1 节 。 另 外 ，IPv6 支持 一 种 称 为 选 播 的 新 的 传输 模式 。 该 
服务 将 数据 包 发 给 至 少 一 个 订阅 了 相关 地 址 的 主机 。 

安全 : 到 目前 为 止 , 需要 认证 的 互联 网 应 用 或 私密 性 数据 传输 依赖 于 应 用 层 的 加 密 技术 。 端 到 端 


第 3 章 网 络 和 网 际 互 连 


争论 支持 应 该 在 应 用 层 实现 安全 协议 的 论点 。 如 果 在 正 层 实现 安全 性 ， 那 么 用 户 与 应 用 程序 开发 者 依 
赖 于 传输 路 径 上 的 每 个 路 由 器 都 正确 地 实现 了 加 密 算法 ， 为 处 理 密 钥 ， 他 们 必须 信任 路 由 器 以 及 其 他 
中 间 结 点 。 

在 了 下层 实现 安全 性 的 好 处 在 于 ， 它 可 用 于 应 用 程序 不 清楚 具体 安全 实现 的 场合 。 例 如 ， 系 统管 理 
员 可 以 将 它 实现 到 防火 墙 中 ， 将 它 统一 应 用 到 所 有 对 外 的 通信 中 ， 而 内 部 通信 可 以 不 用 加 密 而 省 却 了 
相应 的 开销 。 路 由 器 也 可 利用 了 正 级 的 安全 机 制 ， 从 而 保证 它们 之 间 交 换 的 路 由 表 更 新 消息 的 安全 。 

在 IPvw6 中 使 用 认证 与 加 密 的 安全 性 有 效 负载 扩展 头 类 型 实现 安全 性 。 这 些 实现 特征 与 2.4.3 节 介 
绍 的 安全 通道 的 概念 类 似 。 根 据 需 要 ， 可 给 有 效 负 载 加 密 或 者 (并且) 应 用 数字 签名 。 类 似 的 安全 特 
征 也 可 在 IPv4 中 获得 ， 这 时 使 用 了 实现 IPSec 规约 (W, RFC 2411 [Thayer 1998]) 的 全 隧道 。 

从 IPv4 迁移 ”改变 互联 网 基础 设施 的 基本 协议 层 带 来 的 后 果 是 深远 的 。 每 全 主机 的 TCP/IP 协议 
栈 和 路 由 器 软件 都 需要 处 理 卫 ， 很 多 应 用 与 实用 程序 都 需要 处 理 IP 地 址 。 为 了 支持 新 版 本 的 IP 协议 ， 
上 述 应 用 都 需要 升级 。 进 行 这 个 改变 是 不 可 避免 的 ， 因 为 IPv4 提供 的 地 址 空间 即将 耗 尽 。 负 责 IPv6 协 
议 的 ETF 工作 组 定义 了 一 个 迁移 策略 ， 它 主要 涉及 下 列 问 题 的 实现 : 使 用 隧道 技术 ， 将 IPv6 的 路 由 
器 和 主机 “岛屿 ”与 其 他 IPv6“ 岛 屿 ”通信 ， 然 后 逐渐 地 形成 一 个 大 的 “岛屿 ”。 

我 们 在 前 面 提 到 过 ，IPvw6 路 由 器 和 主机 在 处 理 混合 流量 时 应 该 没有 任何 困难 ， 因 为 IPv4 地 址 空间 
被 嵌入 IPv6 空间 内 。 所 有 主要 的 操作 系统 (Windows XP, MacOS X, Linx 和 其 他 UNIX Bik) 已 经 包 
括 了 在 IPv6 上 UDP 和 TCP 套 接 字 《〈 见 第 4 章 ) 的 实现 ， 这 使 得 应 用 能 通过 简单 的 升级 完成 迁移 。 

该 策略 的 理论 从 技术 上 说 是 可 行 的 ， 但 实现 过 程 非常 缓慢 ， 这 也 许 是 由 于 CDR 和 NAT 已 经 减轻 
了 所 期 望 的 更 大 范围 使 用 互联 网 的 压力 ， 但 这 在 移动 电话 和 便携 设备 市 场 已 经 发 生 了 改变 。 所 有 这 些 
设备 在 不 久 的 将 来 就 可 能 具备 访问 互联 网 的 功能 ， 同 时 它们 不 能 容易 地 隐藏 在 NAT ee. Bl 
on, Wits) 2014 年 ， 印 度 和 中 国 将 部 署 超过 10 亿 台 PRA. RA 卫 v6 能 解决 这 样 的 需求 。 


3.4.5 移动 IP 


像 笔记 本 电脑 和 掌上 电脑 这 样 的 移动 计算 机 可 以 在 移动 时 从 不 同 的 位 置 连接 到 互联 网 。 当 用 户 在 
自己 办 公 室 时 ， 笔 记 本 电脑 可 以 先 连 接 到 本 地 以 太 网 ， 然 后 通过 路 由 器 连接 到 互联 网 ; 在 乘 车 旅行 途 
中 ， 可 以 通过 移动 电话 连接 到 互联 网 ， 然 后 ， 在 另 一 个 地 点 连接 到 以 太 网 上 。 用 户 希望 在 任何 一 个 地 
方 查看 电子 邮件 和 访问 Web。 

对 服务 的 简单 访问 并 不 需要 移动 计算 机 保留 一 个 地 址 ， 它 可 在 任意 地 方 获得 一 个 新 的 人 P 地址。 动 
态 主 机 配置 协议 (DHCP) 正 是 用 于 这 一 目的 的 ， 它 使 新 接 人 网 络 的 计算 机 动态 获得 一 个 在 本 地 子 网 
地 址 范围 内 的 IP 地 址 ， 并 从 本 地 DHCP 服务 器 上 找到 诸如 DNS 服务 器 这 样 的 本 地 资源 地 址 ， 它 也 需要 
找到 它 所 访问 的 每 个 站 点 上 有 哪些 本 地 服务 《如 打印 、 邮 件 传 送 等 )。 发 现 服务 是 有 助 于 完成 此 工作 
的 一 种 命名 服务 ， 其 具体 内 容 将 在 第 19 章 (19.2 节 ) 中 介绍 。 

笔记 本 电脑 上 可 能 有 其 他 人 员 需 要 访问 的 文件 或 其 他 资源 ， 或 者 该 笔记 本 电脑 正在 运行 分 布 式 应 
用 〈 如 共享 监控 服务 ， 它 接收 用 户 拥有 的 股票 超过 一 定 阔 值 这 样 的 特定 事件 的 通知 ) 。 当 移动 计算 机 
在 局 域 网 和 无 线 网 络 之 间 移 动 时 ， 如 果 要 让 用 户 和 资源 共享 应 用 访问 移动 计算 机 ， 移 动 计算 机 必须 保 
持 单 个 中 号 , 但 正路 由 是 基于 子 网 的 。 子 网 位 于 固定 的 地 点 ， 将 数据 包 正 确 地 路 由 到 子 网 取决 于 子 
网 在 网 络 上 的 位 置 。 

移动 P 是 后 一 个 问题 的 解决 方案 ， 该 方案 的 实现 对 用 户 是 透明 的 ， 因 此 当 移 动 主机 在 不 同位 置 的 
子 网 中 移动 时 ，IP 通信 会 继续 正常 地 进行 。 这 是 因为 “ 主 ” (home) 域 的 子 网 中 的 每 台 移 动 主 机 拥有 
KAHER IP 地 址 。 

当 移动 主机 在 “ 主 站 点 ”中 连接 到 互联 网 时 ， 数 据 包 会 以 正常 方式 路 由 到 主机 上 ; 当 移 动 主机 在 
其 他 地 方 连 入 互联 网 时 ， 有 两 个 代理 进程 负责 重新 路 由 。 它 们 是 主 代理 (HA) 与 外 地 代理 (FA)。 这 
些 进 程 运行 在 主 站 点 以 及 移动 主机 当前 所 在 位 置 处 的 固定 计算 机 上 。 

HA 负责 保存 移动 主机 当前 位 置 ( 即 可 以 到 达 该 移动 计算 机 的 卫 地址 ) 的 最 新 情况 ， 它 在 移动 主 
机 自身 的 帮助 下 完成 该 功能 。 当 一 个 移动 主机 离开 主 站 点 时 ， 它 会 告知 HA，HA 会 注意 到 该 移动 主机 
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离开 。 当 主机 离开 时 ，HA 就 充当 一 个 代理 服务 器 。 为 实现 代理 功能 ，HA 会 通知 本 地 路 由 器 取消 与 移 
动 主机 IP 地 址 有 关 的 任何 缓存 记录 。 当 HA 作为 一 个 代理 服务 器 时 ，HA 会 响应 有 关 移 动 主机 IP 地 址 
的 ARP 请 求 ， 将 自己 的 局 域 网 地 址 作为 移动 主机 的 网 络 地 址 发 送 给 该 请 求 。 

当 移动 主机 到 达 一 个 新 站 点 时 ， 它 会 通知 在 此 站 点 上 的 FA。FA 给 它 分 配 一 个 “转交 ”地 址 一 一 
一 个 本 地 子 网 上 的 新 的 临时 中 地址 。 然 后 FA 与 HA 联系 ， 将 移动 主机 的 主 IP 地 址 以 及 分 配给 它 的 转 
交 地 址 告知 HA。 

图 3-20 说 明了 移动 IP 的 路 由 机 制 。 当 一 个 以 移动 主机 的 主 地 址 为 地 址 的 IP 数据 包 被 传送 到 主 网 
络 上 时 ， 它 将 被 路 由 到 HA. in, HA 将 该 中 数据 包 封 装 到 一 个 移动 正 数据 包 中 ， 并 发 送 给 FA, FA 
OF ROR P 数据 包 ， 并 通过 它 当 前 连接 的 局 域 网 发 送 到 移动 主机 。 注 意 ，HA 与 FA 将 原始 数据 包 
重新 路 由 到 预期 接收 者 的 方法 ， 是 3.3.7 节 描 述 的 隧道 传输 技术 的 实例 。 


BET 。 通过 隧道 传送 到 FA 的 后 续 的 了 p 包 移动 主机 (MH) 


返回 给 发 送 方 。 f 一 
的 FA 地 址 
发 送 给 MH 的 
第 一 个 IP 包 互联 网 
hf (FA) 
主 代理 通过 隧道 传送 到 FA 


的 第 一 个 IP 包 


图 3-20 移动 IP 路 由 机 制 


HA 也 将 移动 主机 的 转交 地 址 发 送 到 原来 的 发 送 者 。 如 果 发 送 者 支持 移动 ， 它 将 注意 到 新 的 地 
址 ， 并 且 使 用 新 的 地 址 与 移动 主机 接着 通信 ， 避 免 了 通过 HA 重新 路 由 的 开销 。 如 果 发 送 者 不 支持 移 
动 P， 它 将 忽视 地 址 的 改变 ， 而 后 续 的 通信 依然 通过 HA 重新 路 由 。 

移动 全 方案 是 可 行 的 ， 但 还 不 是 十 分 有 效 。 将 移动 主机 作为 一 等 公民 的 方法 会 更 好 一 些 ， 这 样 可 
以 允许 主机 漫游 时 无 需 预 先 给 出 通知 ， 并 且 不 必 使 用 隧道 技术 就 可 将 数据 包 路 由 到 主机 。 应 该 注意 ， 
这 个 看 上 去 很 难 的 技术 已 在 移动 电话 网 中 实现 一 一 当 移动 电话 在 不 同 蜂 窝 乃至 国家 之 间 移 动 时 ， 并 不 
需要 改变 电话 号 码 。 它 们 只 需 时 常 通知 本 地 移动 电话 网 基站 它们 的 存在 即 可 。 


3.4.6 TCP 和 UDP 


TCP 和 UDP 以 一 种 对 应 用 程序 有 用 的 形式 提供 了 互联 网 的 通信 和 能力。 应 用 开发 者 可 能 需要 其 他 类 
型 的 传输 服务 ， 如 提供 实时 保证 或 安全 性 ， 但 这 些 服务 需要 比 P 更 多 的 网 络 层 支持 。TCP 和 UDP $ 
实地 反映 了 IPv4 提供 的 应 用 编程 级 的 通信 设施 。IPv6 必然 会 继续 支持 TCP 和 UDP, 但 它 包含 了 通过 
TCP 和 UDP 无 法 方便 访问 的 功能 。 当 IPv6 的 部 署 已 足够 广 ， 从 而 证 明了 那些 功能 的 开发 是 必要 的 ， 那 
么 可 引 和 人 其 他 类 型 的 传输 服务 来 挖掘 这 些 功能 。 

第 4 章 从 分 布 式 程序 开发 者 的 角度 描述 了 TCP 和 UDP 的 特征 。 这 里 我 们 仅 描 述 它 们 给 PMA 
功能 。 

端口 的 使 用 “第 一 个 要 注意 的 特征 是 ,尽管 下 协议 支持 两 台 计 算 机 (由 IP 地 址 标识 ) 之 间 的 通 
信 ， 但 作为 传输 层 的 协议 ，TCP 和 UDP 必须 提供 进程 间 的 通信 。 这 通过 使 用 端口 来 完成 。 端 口号 用 于 
将 消息 寻 址 到 特定 计算 机 上 的 进程 ， 它 仅 在 此 计算 机 上 有 效 。 端 口号 是 一 个 16 位 整数 。 一 旦 一 个 正 
数据 包 被 发 送 到 目的 主机 ，TCP 或 UDP 层 的 软件 就 通过 该 主机 的 特定 端口 将 它 分 派 到 一 个 进程 中 。 

UDP 的 特点 “UDP 基本 上 是 IP 在 传输 层 的 一 个 复制 。UDP 数据 报 被 封装 在 一 个 IP 数据 包 中 ， 它 
具有 一 个 包含 了 源 端 口号 和 目的 端口 号 的 短 的 头 部 (相应 的 主机 地 址 位 于 下 头 部 )、 一 个 长 度 域 和 一 
个 校 验 和 。UDP 不 提供 传输 保证 。 我 们 已 经 注意 到 ， 人 P 数据 包 可 能 会 由 于 拥塞 或 网 络 错误 被 丢弃 。 除 
了 可 选 的 校 验 和 外 ，UDP 未 增加 任何 人 额外 的 可 靠 性 机 制 。 如 果 校 验 和 域 非 零 ， 则 接收 主机 根据 数据 包 
内 容 计算 出 一 个 校 验 值 ， 与 接收 到 的 校 验 和 相 比 ， 若 两 者 不 匹配 则 数据 包 被 丢弃 。 

因此 ， 依 赖 IP 传输 ，UDP 提供 了 一 种 在 下 上 附加 最 小 开销 或 传输 延迟 、 在 进程 对 〈 或 者 在 数据 
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报 地 址 是 IP 组 播 地 址 情况 下 ， 从 一 个 进程 发 送 到 多 个 进程 ) 之 间 传 送 最 长 达 64KB 的 消息 的 方法 。 它 
不 需要 任何 创建 开销 以 及 管理 用 的 确认 消息 ， 但 它 只 适应 于 不 需要 可 靠 传送 单个 或 多 个 消息 的 服务 和 
应 用 。 

TCP 的 特点 TCP 提供 了 一 个 更 复杂 的 传输 服务 。 它 通过 基于 流 的 编程 抽象 ， 提 供 了 任意 长 度 字 
节 串 的 可 靠 传输 。 可 靠 性 保证 使 得 发 送 进程 递交 给 TCP 软件 的 数据 传送 到 接收 进程 时 ， 其 顺序 是 相同 
的 。TCP 是 面向 连接 的 ， 在 数据 被 传送 前 ， 发 送 进程 和 接收 进程 必须 合作 ， 建 立 一 个 双向 的 通信 通道 。 
连接 只 是 一 个 执行 可 靠 数 据 传 输 的 端 到 端的 协议 ， 中 间 结 点 〈 如 路 由 器 ) 并 没有 关于 TCP 连接 的 知 
W, 一 个 TO 传输 中 传输 数据 的 所 有 IP 数据 包 并 不 一 定 使 用 相同 的 路 由 。 

TCP 层 包 含 额外 机 制 〈 在 正之 上 实现 ) 以 保证 可 靠 性 。 这 些 机 制 包括 : 

排序 : TCP 发 送 进程 将 流 分 割 成 数据 片断 序列 ， 然 后 将 之 作为 中 数据 包 传送 。 每 个 TCP 片断 均 有 
一 个 序号 。 它 在 该 片断 的 第 一 个 字 节 给 出 流 中 的 字 节 数 。 接 收 程 序 在 将 数据 放 入 接收 进程 的 输入 流 前 ， 
使 用 序号 对 收 到 的 片断 排序 。 只 有 所 有 编号 较 小 的 片断 都 已 收 到 并 且 放 入流 中 后 ,编号 大 的 片断 才能 
被 放 入 流 中 ， 因 此 ， 未 按 顺 序 到 达 的 片断 必须 保存 在 一 个 缓冲 区 中 ， 直 到 它 前 面 的 片断 到 达 为 止 。 

流 控制 : 发 送 方 管理 不 能 使 接收 方 或 者 中 间 结 点 过 载 ， 这 通过 片断 确认 机 制 完成 。 当 接收 方 成 功 
地 接收 了 一 个 片断 后 ， 它 会 记录 该 片断 的 序号 。 接 收 方 会 不 时 地 向 发 送 方 发 送 确认 信息 ， 给 出 输入 流 
中 片断 的 最 大 序号 以 及 窗口 大 小 。 如 果 有 反 向 的 数据 流 ， 则 确认 信息 被 包含 在 正常 的 片断 中 ， 否 则 被 
放 在 确认 数据 片 中 。 确 认 片 断 中 的 窗口 大 小 域 指定 了 在 下 一 个 确认 之 前 允许 发 送 方 传送 的 数据 量 。 

当 一 个 TCP 连接 用 于 与 一 个 远程 交互 程序 通信 时 ， 会 狂 发 产生 数据 ， 但 产生 的 数据 量 可 能 很 小 。 
例如 ， 利 用 键盘 输入 可 能 每 秒 仅 输入 几 个 字符 ， 但 字符 的 显示 必须 足够 快 ， 以 便 用 户 看 到 自己 的 打字 
结果 。 这 通过 在 本 地 缓冲 区 中 设置 一 个 超时 值 了 (一 般 是 0.5s) 来 实现 。 使 用 这 个 简单 的 方案 ， 只 要 
数据 片断 已 在 输出 缓冲 区 中 停留 了 秒 ， 或 是 缓冲 区 的 内 容 到 达 MTU 限制 ， 就 将 片断 发 送 到 接收 方 。 该 
缓冲 区 方案 不 会 使 交互 式 延迟 再 增加 了 秒 以 上 。Nagle 描述 了 另 一 个 产生 较 少 流量 的 算法 ， 它 对 一 些 交 
互 式 应 用 更 有 效 [Nagle 1984] 。Nagle 的 算法 已 用 于 许多 TC 实现 中 。 大 多 数 TCP 实现 是 可 以 配置 的 ， 
人 允许 应 用 程序 修改 了 值 ， 或 是 在 几 个 缓冲 区 算法 中 选择 其 一 。 

由 于 无 线 网 络 的 不 可 靠 性 ， 会 导致 数据 包 丢 失 频 繁 发 生 ， 上 面 的 流 控 制 机 制 对 于 无 线 通信 不 是 特 
别 适 用 。 这 是 广 域 移动 通信 使 用 的 WAP 协议 族 采 纳 另 一 种 传输 机 制 的 原因 。 但 对 无 线 网 络 而 言 ， 实 现 
TCP 也 是 很 重要 的 ， 为 此 提出 了 TCP 机 制 的 修改 提议 [Balakrishnan et al 1995 ，1996 ]。 其 思想 是 在 无 
线 基 站 (有线 网 络 和 无 线 网 络 之 间 的 网 关 ) 实现 一 个 TCP 支持 组 件 。 该 组 件 探听 进出 无 线 网 络 的 TCP 
片断 ， 重 传 任何 未 被 移动 接收 方 快速 确认 的 外 发 片断 ， 并且 在 注意 到 序列 号 有 间隔 时 ， 请 求 重 传 接收 
数据 。 . 

重 传 ; 发 送 方 记录 它 发 送 的 片断 的 序号 。 当 它 接收 到 一 个 确认 消息 时 ， 它 知道 片断 被 成 功 接 收 ， 
并 将 之 从 外 发 缓冲 区 中 清除 。 如 果 在 一 个 指定 超时 时 间 肉 ， 片 断 并 没有 得 到 确认 ， 则 发 送 方 重 发 该 
片断 。 

缓冲 : 接收 方 的 接收 缓冲 区 用 于 平衡 发 送 方 和 接收 方 之 间 的 流量 。 如 果 接 收 进 程 发 出 receive 操作 
的 速度 比 发 送 进程 发 出 send 操作 的 速度 慢 很 多 ， 那 么 缓冲 区 中 的 数据 量 就 会 增加 。 通 常情 况 下 ， 数 据 
在 缓冲 区 满 之 前 被 取出 ， 但 最 终 缓 冲 区 会 溢出 ， 此 时 到 达 的 片断 不 被 记录 就 直接 被 丢弃 了 。 因 此 ， 接 
收 方 不 会 给 出 相应 的 确认 ， 而 发 送 方 将 被 迫 重 新 发 送 片断 。 

校 验 和 : 每 个 片断 包含 一 个 对 头 部 和 片断 中 数据 的 校 验 和 ， 如 果 接 收 到 的 片断 和 校 验 和 不 匹配 ， 
则 片断 被 丢弃 。 


3.4.7 域名 


第 13 章 将 详细 介绍 域名 系统 (DNS) 的 设计 与 实现 ， 在 此 我 们 只 做 简单 的 介绍 ， 以 完成 本 章 有 关 
互联 网 协议 的 讨论 。 互 联网 支持 一 种 使 用 符号 名 标识 主机 和 网 络 的 方案 ， 如 binkley. cs. megill. ca 或 es- 
sex. ac. uk。 已 命名 的 实体 被 组 织 成 一 个 命名 层次 结构 。 已 命名 的 实体 称 为 域 ， 而 符号 名 称 为 域名 。 域 
被 组 织 成 一 个 层次 结构 ， 以 便 反映 它们 的 组 织 结构 。 命 名 层次 结构 与 构成 互联 网 的 网 络 物理 布局 完全 
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无 关 。 域 名 对 于 用 户 很 方便 ,但 它们 在 被 用 作 通 信 标 识 符 之 前 ， 必 须 翻译 成 互联 网 地 址 (了 P 地 址 ) ， 
这 是 DNS 服务 的 职责 。 应 用 程序 将 请 求 发 送 给 DNS， 以 便 将 用 户 指定 的 域名 转化 成 互联 网 地 址 。 

DNS 实现 为 一 个 可 在 互联 网 的 任意 主机 上 运行 的 服务 器 进程 。 每 个 域 至 少 有 两 台 DNS 服务 器 ， 一 
般 情 况 下 会 更 多 。 每 个 域 的 服务 器 持 有 该 域 之 下 的 域名 树 的 部 分 视图 。 它 们 至 少 必 须 存 储 自己 域 中 的 
所 有 域名 和 主机 名 ， 但 通常 包含 树 的 更 大 的 部 分 。 若 DNS 服务 器 接收 到 的 请 求 中 ， 需 要 翻译 的 域名 在 
自己 所 保存 的 那 部 分 树 以 外 ， 则 DNS 服务 器 通过 向 相关 域 的 服务 器 发 送 请 求 ， 递 归 地 自 右 向 左 解析 名 
字 的 各 个 部 分 。 翻 译 结果 缓存 在 处 理 原始 请 求 的 服务 器 上 ， 以 便 未 来 处 理 同 一 域名 请 求 时 ， 无 须 查 阅 
其 他 服务 器 就 可 以 解析 该 名 字 。 若 不 广泛 地 使 用 缓存 技术 ，DNS 将 无 法 工作 ， 因 为 基本 上 在 每 种 情况 
下 都 会 查询 “ 根 ” 名 字 服 务 器 ， 从 而 形成 一 个 服务 访问 瓶颈 。 


3.4.8 防火墙 


几乎 所 有 的 组 织 都 需要 连接 互联 网 ， 以 便 给 顾客 或 其 他 外 部 用 户 提供 服务 ， 同 时 使 内 部 用 户 可 以 
访问 信息 和 服务 。 大 多 数组 织 中 的 计算 机 是 完全 不 同 的 ， 它 们 运行 不 同 的 操作 系统 和 应 用 软件 。 软 件 
的 安全 性 差别 更 大 ， 有 些 软件 提供 了 先进 的 安全 措施 ， 但 大 多 数 软件 没有 能 力 或 有 很 少 的 能 力 保 证 进 
入 的 通信 和 是 可 靠 的 ， 向 外 的 通信 和 是 私密 的 。 总 之 ,在 一 个 有 很 多 计算 机 和 多 种 软件 的 企业 内 部 网 中 ， 
系统 的 有 些 部 分 在 安全 攻击 下 会 非常 地 脆弱 是 不 可 避免 的 。 攻 击 的 形式 将 在 第 11 章 中 详细 讨论 。 


防火 墙 的 目的 在 于 监视 和 控制 进出 企业 内 部 网 路 由 器 / 受 保护 的 内 部 网 
的 所 有 通信 。 防 火 墙 由 一 组 进程 实现 ， 它 作为 通 向 过 滤器 
企业 内 部 网 的 网 关 参见 图 3-21a) ， 应 用 了 组 织 规 mga — le 
定 的 安全 策略 。 an LA 

防火 墙 安全 策略 的 目标 可 能 包括 下 面 的 某 些 或 服务 器 
所 有 内 容 ， a) 过 滤 型 路 由 器 

服务 控制 : 用 于 确定 内 部 主机 上 的 哪些 服务 可 路 由 器 / | BS 
以 接受 外 部 访问 ， 并 拒绝 其 他 的 服务 请 求 。 外 发 服 a’ \ 

务 请 求 和 应 答 也 受到 控制 。 这 些 过 滤 行 为 可 以 基于 









互联 网 一 一 外 


IP 数据 包 的 内 容 以 及 其 中 包含 的 TCP 和 UDP 请 求 


来 完成 。 例 如 ， 到 达 的 HTTP 请 求 的 目的 地 应 该 是 aa 
官方 的 Web 服务 器 主机 ， 否 则 该 请 求 会 被 拒绝 。 b) 过 滤 型 路 由 器 和 保 急 
行为 控制 ,用 于 防止 破坏 公司 策略 的 行为 、 反 





社会 的 行为 ， 或 者 找 不 到 可 辨认 的 合法 目的 的 行为 ， pe ae 
这 些 行为 被 怀疑 为 构成 了 攻击 的 一 部 分 。 其 中 的 某 after Ww P 

些 过 波动 作 (action) TYE IP at TCP 层 进行 , 但 其 一 一 让 人 
他 动作 (action) 可 能 需要 在 更 高 层 对 消息 进行 解 ka O 

释 。 例 如 ， 过 滤 垃圾 邮件 攻击 需要 检查 消息 头 中 发 En 

送 方 的 邮件 地 址 ， 甚 至 是 消息 内 容 。 

用 户 控制 : 组 织 可 能 希望 在 用 户 之 间 加 以 区 分 ， 图 3-21 防火墙 配 置 
允许 某 些 用 户 访问 外 部 服务 ， 而 其 他 用 户 则 禁止 访问 外 部 服务 。 另 一 个 大 家 更 易 接收 的 用 户 控制 的 例 
子 是 ， 避 免 接收 系统 管理 组 成 员 以 外 的 其 他 用 户 的 软件 ， 以 免 感 染病 毒 或 是 维护 软件 标准 。 这 是 个 特 
殊 的 例子 ， 如 果 不 禁 止 普通 用 户 使 用 Web， 要 想 实现 上 述 目的 是 很 困难 的 。 

用 户 控制 的 另 一 个 实例 是 拨号 以 及 其 他 为 不 在 站 点 的 用 户 提供 连接 的 管理 。 如 果 防 火 墙 同时 也 是 
通过 调制 解 调 器 连接 的 主机 ， 它 可 以 在 连接 时 认证 用 户 ， 并 且 对 所 有 通信 使 用 一 个 安全 通道 (防止 外 
来 的 窃听 、 伪 装 和 其 他 攻击 ) 。 这 是 本 节 后 面 将 要 描述 的 虚拟 私 网 (VPN) 技术 的 目的 。 

这 些 策略 必须 以 过 滤 操 作 的 方式 表达 ， 而 这 些 操作 由 在 不 同 层 操作 的 过 滤 进程 执行 ; 

PARETE: 这 是 一 个 检查 单个 外 数据 包 的 过 滤 进 程 ， 它 会 根据 源 地 址 和 目的 地 址 进行 决策 。 
它 也 会 检查 他 数 据 包 的 服务 类 型 域 ， 并 根据 服务 类 型 解释 数据 包 的 内 容 。 例 如 ， 它 可 以 根据 目的 端口 
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号 过 滤 TCP 数据 包 ， 因 为 服务 通常 位 于 大 家 熟知 的 端口 上 ， 从 而 可 以 根据 请 求 的 服务 过 滤 数 据 包 。 例 
如 ， 很 多 站 点 禁止 外 部 客户 使 用 NES 服务 器 。 

从 性 能 方面 考虑 ， 了 过 滤 通 常 由 路 由 器 的 操作 系统 内 核 中 的 进程 执行 。 如 果 使 用 多 个 防火 墙 ， 第 
一 个 防火 墙 可 能 标识 某 些 数据 包 以 便 后 面 的 防火 墙 做 更 彻底 的 检查 ， 同 时 让 “于 净 ” 的 数据 包 继 续 发 
送 ， 也 有 可 能 基于 IP 数据 包 的 顺序 进行 过 滤 ， 例 如 ， 在 执行 登录 命令 前 ， 禁 止 对 FIP 服务 器 进行 
访问 。 

TCP MA: TCP 网 关 进 程 检查 所 有 的 TO 连接 请 求 以 及 数据 片 的 传输 。 安 装 了 TCP 网 关 进 程 后 ， 
可 控制 TCP 连接 的 创建 ， 检 查 TCP 片断 的 正确 性 〈 一 些 服务 拒绝 攻击 用 残缺 的 TCP 片断 来 破坏 客户 的 
操作 系统 ) 。 在 需要 时 ， 它 们 可 以 被 路 由 到 应 用 层 网 关 进 行内 容 检查 。 

应 用 层 网 关 : 应 用 层 网 关 进 程 作为 应 用 进程 的 代理 。 例 如 ， 用 户 希 望 有 这 样 的 策略 : 允许 特定 内 
部 用 户 的 Telnet 连接 创建 到 特定 外 部 主机 。 当 一 个 用 户 在 本 地 运行 Telnet 程序 时 ， 程 序 试图 和 远程 主 
机 建立 一 个 TCP 连接 ， 该 请 求 被 TCP 网 关 截 获 。TCP 网 关 启 动 一 个 Telnet 代理 进程 ， 原 有 的 TCP 连接 
被 路 由 到 该 进程 。 如 果 代 理 通 过 了 Telen 操作 〈 用 户 被 授权 使 用 所 请 求 的 主机 ) ， 那 么 它 会 建立 另 一 个 
通 向 所 请 求 的 主机 的 连接 ， 并 由 它 中 转 所 有 来 往 的 TCP 数据 包 。 一 个 类 似 的 代理 进程 将 代表 每 个 Tel- 
net 客户 而 运行 ， 而 类 似 的 代理 可 能 被 FTP 和 其 他 服务 所 采用 。 

一 个 防火 墙 通常 由 工作 在 不 同 协议 层 的 多 个 进程 组 成 。 考 虑 到 性 能 和 容错 ， 通 常 在 防火 墙 中 使 用 
一 台 以 上 的 计算 机 。 在 下 面 描述 的 并 由 图 3-21 说 明 的 所 有 配置 中 ， 我 们 给 出 了 一 个 不 受 保护 的 Web 服 
务 器 和 FIP 服务 器 。 它 只 包含 一 些 已 发 布 的 信息 ， 这 些 信息 对 公共 访问 不 加 防范 ， 而 服务 器 软件 必须 
确保 只 能 由 授权 的 内 部 用 户 修改 。 

下 数据 包 过 滤 通 常 由 路 由 器 (一 台 至 少 有 两 个 位 于 不 同 IP 网 络 的 网 络 地 址 的 计算 机 ) 执行 ,该 
路 由 器 运行 一 个 RIP 进程 ， 一 个 P 数据 包 过 滤 进 程 以 及 个 数 尽 可 能 少 的 其 他 进程 。 路 由 器/ 过 滤器 仅 
运行 可 信 的 软件 ， 其 运行 方式 要 保证 过 滤 策 略 的 执行 。 这 涉及 不 能 运行 特洛伊 木马 进程 ， 以 及 路 由 器 
和 过 滤器 软件 不 被 修改 或 破坏 。 图 3-21a 显示 了 仅 依赖 于 IP 过 滤 并 只 使 用 了 一 个 路 由 器 的 简单 的 防火 
墙 配置 ， 图 3-10 中 的 网 络 配 置 包含 两 个 作为 此 类 防火 墙 的 路 由 器 /过 滤器 。 该 配置 中 有 两 个 路 由 器 /过 
滤器 ， 以 确保 性 能 和 可 靠 性 。 它 们 遵循 同样 的 过 滤 策略 ， 而 第 二 个 没有 增加 系统 的 安全 性 。 

当 需 要 TCP 和 应 用 层 网 关 进 程 时 ， 这 些 进程 通常 会 运行 在 单独 的 计算 机 上 ， 该 计算 机 称 为 保健 
(这 个 术语 源 于 城堡 的 构筑 ， 城 侍 有 一 个 突出 的 影 望 塔 用 来 保护 城堡 ) 。 堡 急 计 算 机 是 一 台 位 于 企业 内 
部 网 中 由 IP 路 由 器 /过 滤器 保护 的 主机 ， 它 运行 TCP 和 应 用 层 网 关 (参见 图 3-21b) 。 与 路 由 器 /过 滤 
器 类 似 ， 堡 又 只 运行 可 信 的 软件 。 在 一 个 足够 安全 的 企业 内 部 网 内 ,代理 必须 用 于 访问 所 有 的 外 部 服 
务 。 读 者 可 能 已 经 对 用 于 Web 访问 的 代理 很 熟悉 了 ， 它 们 都 是 防火 墙 代理 的 应 用 实例 ， 并 且 通 常 和 
Web 缓存 服务 器 〈 见 第 2 章 的 描述 ) 以 某 种 方式 集成 构建 。 这 些 代理 以 及 其 他 代理 可 能 需要 大 量 的 存 
储 和 处 理 资源 。 

应 用 以 串联 方式 部 署 的 两 台 路 由 器 /过 滤器 以 及 堡 久 和 位 于 与 路 由 器 /过 滤器 相 链 接 的 单独 子 网 内 
的 公共 服务 器 可 以 提高 安全 性 能 ( 见 图 3-21c) ， 这 种 配置 在 安全 方面 有 以 下 优势 : 

。 如 果 堡 又 策略 严格 的 话 ， 企 业内 部 网 内 主机 的 IP 地 址 根本 不 需要 对 外 界 公 开 ， 企 业内 部 网 计 

算 机 也 无 须知 道外 部 地 址 ， 因 为 所 有 的 外 部 通信 都 要 通过 堡 侄 内 的 代理 进程 完成 ， 而 代理 进程 
可 以 访问 两 端的 计算 机 。 

© 如 果 第 一 个 路 由 髓 /过 滤 髓 被 攻破 ， 那 么 第 二 个 路 由 器 /过 滤器 (由 于 原本 外 部 不 可 见 而 不 易 受 

攻击 ) 会 继续 承担 挑选 和 拒绝 不 可 接收 的 了 P 数据 包 的 责任 。 

虚拟 私 网 通过 使 用 IP 层 的 密码 保护 安全 通道 ， 虚 拟 私 网 (VPN) 将 防火 墙 保护 的 界限 延伸 到 本 
地 企业 内 部 网 之 外 。 在 3.4.4 节 中 ， 我们 概述 了 使 用 IPSec 隧道 技术 对 IPv6 和 IPv4 进行 的 下 安全 扩展 
[Thayer 1998] ， 这 些 都 是 实现 VPN 的 基础 。VPN 可 用 于 外 部 个 人 用 户 ,或 者 在 使 用 公共 互联 网 链接 的 
位 于 不 同 站 点 的 企业 内 部 网 之 间 实 现 安全 连接 。 

例如 ， 一 个 员工 需要 通过 ISP 连接 到 组 织 的 企业 内 部 网 。 一 旦 连接 成 功 ， 他 就 应 该 拥有 和 防火 墙 内 
部 用 户 同 样 的 权利 。 若 本 地 主机 实现 了 下 安全 ， 则 上 面 的 要 求 可 以 完成 。 本 地 主机 保存 了 与 防火 墙 共享 
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的 一 个 或 多 个 密 钥 ， 这 些 密 钥 用 来 在 连接 时 建立 安全 通道 。 安 全 通道 机 制 将 在 第 11 章 中 详细 介绍 。 


3.5 实例 研究 ， 以 太 网 、Wifi、 蓝 牙 


到 目前 为 止 , 我 们 已 经 讨论 了 有 关 构 造 计算 机 网 络 的 原理 ， 描 述 了 互联 网 的 “虚拟 网 络 层 ”IP。 
在 结束 本 章 前 ， 我 们 将 描述 三 种 实际 网 络 的 原理 与 实现 。 

在 20 世纪 80 年 代 初 , 美国 电子 与 电气 工程 师 协会 (EEE) 成 立 了 一 个 委员 会 来 制订 局 域 网 的 一 
系列 标准 (802 委员 会 [IEEE 1990]) ， 它 的 分 会 制订 了 一 系列 已 成 为 LAN 关键 标准 的 规约 。 在 大 多 
数 情况 下 ， 这 些 标准 基于 20 世纪 70 年 代 由 研究 而 定 的 已 有 工业 标准 。 相 关 的 分 会 以 及 迄今 发 布 的 标 
准 如 图 3-22 所 示 。 
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802.6 城 域 网 [IEEE 1994] 
802. 11 WiFi 无 线 局 域 网 [IEEE 1999 ] 
802. 15. 1 蓝牙 无 线 个 域 网 [IEEE 2002 ] 
802. 15.4 ZigBee 无 线 传感器 网 络 [IEEE 2003 ] 
802. 16 WiMAX 无 线 城 域 网 [ IEEE 2004a] 
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这 些 标准 在 性 能 、 有 效 性 、 可 靠 性 和 成 本 上 有 所 不 同 ， 但 它们 都 提供 了 在 中 短 距 高 上 相对 较 高 的 
网 络 带 宽 。IEEE 802.3 以 太 网 标准 极 大 地 赢得 了 有 线 LAN 市 场 。 作 为 有 线 LAN 的 代表 技术 ,我 们 将 
在 3.5.1 节 中 描述 它 。 尽 管 以 太 网 实现 有 多 种 可 用 带宽 ， 但 它们 的 操作 原理 是 相同 的 。 

IEEE 802. 5 令 牌 环 网 标准 在 20 世纪 90 年 代 是 以 太 网 的 一 个 重要 竞争 者 ， 它 比 以 太 网 更 有 效 并 能 
保证 带宽 ,现在 已 经 从 市 场 上 消失 了 。 如 果 读 者 对 这 种 LAN 技术 感 兴趣 ， 可 以 在 www. cdk5. net/net- 
working 找到 它 的 简要 描述 。 以 太 网 交换 机 的 广泛 使 用 (与 集线器 相对 ) 使 得 以 太 网 能 以 提供 带宽 和 延 
退 保证 《进一步 的 讨论 见 3. $. 1 节 中 “用 于 实时 应 用 和 服务 质量 至 关 重 要 的 应 用 的 以 太 网 ”) 的 方式 
被 配置 ， 这 是 它 取代 令 牌 环 网 技术 的 一 个 理由 。 

IEEE 802.4 令 牌 总 线 标准 是 为 具有 实时 需求 的 工业 应 用 而 开发 的 ， 并 应 用 于 该 领域 。IEEE 802. 6 
城 域 网 标准 覆盖 高 达 SO 公里 的 距离 ， 并 用 于 跨 城 镇 的 网 络 。 

IEEE 802. 11 无 线 LAN 标准 的 出 现 稍 晚 一 些 ,但 由 于 许多 制造 商 生 产 的 克也 产品 以 及 它 被 安装 到 
大 量 移动 设备 和 手持 计算 设备 上 ， 它 目前 已 经 在 市 场 上 占据 了 主要 的 位 置 。IEEE 802. 11 标准 支持 具有 
简单 的 无 线 发 送 器 /接收 器 设备 之 间 的 通信 ， 设 备 间 的 距离 在 150 KIA, WER IK 54Mbps。 我 们 
在 3.5.2 节 描 述 它 的 操作 原理 。IEEE 802.11 网 络 的 详情 可 以 在 Crow 等 [1997] 以 及 Kurose 和 Ross 
[2007] 中 找到 。 l 

IEEE 802. 15. 1 无 线 PAN 标准 (蓝牙) 基于 1999 年 由 爱立信 公司 开发 的 技术 ， 该 技术 可 在 不 同 设 
备 〈 例 如 平板 电脑 、 移 动 电话 和 耳机 ) 之 间 传 输 低 带宽 的 数字 声音 和 数据 ， 并 在 2002 年 标准 化 成 
IEEE 802. 15.1, 3.5.3 节 将 详细 介绍 蓝牙 。 

IEEE 802. 15.4 (ZigBee) 是 另 一 个 WPAN 标准 ， 它 用 于 为 家 中 极 低 带 帘 、 低 能 量 设 备 〈 例 如 远程 
控制 、 防 盗 报 警 和 加 热 系 统 传感器 ) 和 无 处 不 在 设备 〈 例 如 Active badge、 标 签 读 取 器 ) 提供 数据 通 
信 。 这 样 的 网 络 称 为 无 线 传 感 器 网 络 ， 它 们 的 应 用 和 通信 特征 见 第 19 章 。 

IEEE 802. 16 无 线 MAN 标准 〈 商 用 名 称 为 WiMAX) 在 2004 一 2005 年 被 批准 。IEEE 802. 16 标准 作 
为 家 庭 和 办 公 室 的 “最 后 一 公里 ”连接 的 电缆 和 DSL 连接 的 替代 品 。 该 标准 的 一 个 变 体 意 在 蔡 代 
802. 11 WiFi 网 络 成 为 室内 外 公共 区 域 中 笔记 本 电脑 和 移动 设备 之 间 的 主要 连接 技术 。 

20 世纪 80 年 代 末 到 90 年 代 初 ，ATM 技术 从 电信 和 计算 机 界 的 研究 和 标准 化 工作 中 产生 
[CCITT1990] 。 它 的 目标 是 提供 适合 电话 、 数 据 以 及 多 媒体 〈 高 品质 语音 与 视频 ) 应 用 的 高 带宽 的 广 
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域 数字 网 络 技术 。 尽 管 它 被 接受 的 过 程 比 预期 缓慢 ， 但 ATM 现在 是 超 高 速 广域网 的 主导 技术 。 它 在 某 
些 地 方 的 LAN 应 用 中 蔡 代 了 以 太 网 ， 但 在 LAN 市 场 上 不 是 太 成 功 ， 因 为 100Mbps 和 1000Mbps 以 太 网 
通过 低 得 多 的 价格 与 之 竞争 。ATM 的 详细 情况 以 及 其 他 高 速 网 络 技术 可 以 参阅 Tanenbaum [2003] 和 
Stallings [2002] 的 著作 。 


3.5.1 以 太 网 


以 太 网 是 1973 年 【Metcalfe and Boggs1976; Shoch et al. 1982; 1985] 在 Xerox Palo Alto 研究 中 心 作 
为 个 人 工作 站 和 分 布 式 系统 研究 计划 的 一 部 分 开发 出 来 的 。 该 实验 以 太 网 是 第 一 个 高 速 局 域 网 ， 展 示 
了 链接 一 个 场地 里 的 计算 机 ， 并 使 它们 以 低 错 误 率 、 无 交换 延迟 的 高 速 传输 速率 互相 通信 的 高 速 局 域 
网 的 可 行 性 和 可 用 性 。 最 初 的 以 太 网 原型 以 3Mbps 的 速度 运行 ， 现 在 以 太 网 系统 的 可 用 带宽 已 经 扩展 
到 1OMbps ~ 1000Mbps。 

我 们 将 描述 在 IEEE 802. 3 标准 [IEEE 1985a] 中 定义 的 10Mbps 以 太 网 的 操作 原理 。 它 是 第 一 个 
广泛 部 署 的 局 域 网 技术 。100Mbps 的 变 体 是 现在 广泛 使 用 的 一 种 以 太 网 ， 它 的 操作 原理 与 10Mbps 类 
似 。 本 节 最 后 将 总 结 目 前 以 太 网 传输 技术 更 重要 的 变 体 以 及 可 用 的 带宽 。 所 有 以 太 网 变 体 的 综合 描述 ， 
请 参见 Spurgeon [2000] 。 

单个 以 太 网 是 一 个 简单 的 或 有 分 支 的 类 似 总 线 的 连接 ， 它 使 用 的 传输 介质 由 通过 集线器 或 中 继 器 
连接 的 一 个 或 多 个 连续 的 电缆 段 组 成 。 集 线 器 和 中 继 器 是 连接 线路 的 设备 ， 它 使 得 同样 的 信号 能 穿 过 
所 有 线路 。 几 个 以 太 网 可 在 以 太 网 网 络 协议 层 通过 以 太 网 交换 机 或 网 桥 连接 。 交 换 机 和 网 桥 在 以 太 网 
帧 层 操作 ， 将 目的 地 为 邻接 以 太 网 的 帧 转发 过 去 。 对 于 IP 这 样 的 高 层 协议 ， 连 接 起 来 的 以 太 网 可 看 做 
一 个 网 络 〈 如 在 图 3-10 P, IP FP 138. 37. 88 和 138. 37. 94 都 由 几 个 以 太 网 组 成 ， 它 们 由 标记 为 Es- 
witch 的 交换 机 连接 ) 。 特 别 是 ARP 协议 (参见 3.4.2 节 )， 它 可 以 跨越 相互 连接 的 一 组 以 太 网 来 解析 
IP 地 址 ; 每 个 ARP 请 求 都 广播 到 子 网 中 所 有 连接 的 网 络 上 。 

以 太 网 的 操作 方法 定义 为 “具有 冲突 检测 的 载波 侦 听 多 路 访问 ” (简称 CSMAACD)， 它 们 属于 竞 
争 总 线 类 网 络 。 竞 争 总 线 使 用 一 种 传输 介质 连接 所 有 的 主机 。 管 理 介质 访问 的 协议 称 为 介质 访问 控制 
(Medium Access Control, MAC) 协议 。 由 于 单一 链 路 连接 所 有 主机 ， 所 以 MAC 协议 将 数据 链 路 层 协议 
(负责 在 通信 链 路 上 传输 数据 包 ) 和 网 络 层 协议 (负责 将 数据 包 传 输 到 主机 ) 的 功能 合并 到 一 个 协议 
层 中 。 

数据 包 广播 ”CSMA/CD 网 络 中 的 通信 方法 是 在 传输 介质 上 广播 数据 包 。 所 有 工作 站 不 断 地 “ 监 
听 ” 介 质 上 传输 的 数据 包 的 目的 地 是 否 是 自己 。 任 何 想 发 送 消息 的 工作 站 会 广播 一 个 或 多 个 数据 包 
(在 以 太 网 规约 中 称 为 帧 ) 到 介质 上 。 每 个 数据 包 包 含 目的 工作 站 地 址 、 发 送 工作 站 地 址 和 表示 要 传 
输 消息 的 变 长 比特 序列 。 数 据 传输 以 10Mbps 的 速度 《在 100Mbps 和 1000Mbps 以 太 网 上 以 更 高 速度 ) 
进行 ， 数据 包 长 度 为 64B 到 1518B。 因 此 ， 在 10Mbps 以 太 网 上 传输 一 个 数据 包 的 时 间 是 50 ~ 1200ms， 
具体 时 间 取 决 于 数据 包 的 长 度 。 尽 管 除了 需要 限制 冲突 产生 的 延迟 外 ,没有 任何 其 他 技术 原因 需要 制 
订 固定 的 界限 ,但 在 IEEE 标准 中 ，MTU 还 是 被 定义 为 1518B。 

目的 工作 站 的 地 址 通常 指 一 个 网 络 接口 。 每 个 工作 站 的 控制 器 硬件 接收 每 个 数据 包 的 一 个 副本 。 
它 比 较 每 个 数据 包 的 目的 地 址 和 本 地 的 硬 编 码 地 址 ， 忽 略 地 址 为 其 他 工作 站 的 数据 包 ， 并 将 地 址 匹配 
的 数据 包 接 收 到 本 地 主机 。 目 的 地 址 也 可 以 指定 一 个 广播 或 者 组 播 地 址 。 普 通 地 址 通过 最 高 位 与 广播 
地 址 和 组 播 地 址 区 分 (前 者 为 0， 后 者 为 1)。 全 为 1 的 地 址 被 保留 为 广播 地 址 ， 在 一 条 消息 被 网 络 上 
所 有 工作 站 接收 时 使 用 。 这 可 用 于 实现 ARP IP 地 址 解析 协议 。 任 何 收 到 具有 广播 地 址 的 数据 包 的 工作 
站 将 把 数据 包 传送 到 本 地 主机 。 组 播 地 址 指定 了 一 种 受 限 的 广播 方式 ， 一 个 数据 包 由 一 组 其 网 络 接口 
被 配置 为 可 接收 具有 组 播 地 址 的 数据 包 的 工作 站 接收 ， 但 不 是 所 有 的 以 太 网 接口 实现 都 可 以 识别 组 播 
地 址 。 

以 太 网 网 络 协议 〈 在 一 对 主机 之 间 传 输 以 太 网 数据 包 ) 由 以 太 网 硬件 接口 实现 ， 而 传输 层 以 及 传 
输 层 之 上 的 协议 需要 协议 软件 。 

以 太 网 数据 包 格 式 ”以太 网 工作 站 上 传输 的 数据 包 ( 或 更 准确 地 说 是 帧 ) 具有 以 下 格式 ; 


75° 





[130] 


76 


第 3 章 网 络 和 网 际 互 连 


字 节 : 7 1 6 6 2 46 < 长 度 <1500 4 
| 前 同步 符 | s | 目的 地 址 | ww ”| ARKE 要 传输 的 数据 校 验 和 














除了 已 提 到 目的 地 址 和 源 地 址 外 ， 帧 还 包括 一 个 8 字 节 的 固定 前 缀 、 一 个 长 度 域 、 一 个 数据 域 和 
一 个 校 验 和 。 前 缀 用 于 硬件 定时 ， 由 7 字 节 的 前 同步 符 组 成 ， 每 个 前 同步 符 都 包括 位 模式 10101010， 
后 接 一 字 节 的 开始 帧 分 界 符 〈 在 图 中 是 S) ， 分 界 符 的 模式 为 10101011。 

尽管 标准 规定 单个 以 太 网 中 的 工作 站 不 能 超过 1024 个 ， 但 以 太 网 的 地 址 占 了 6 字 节 ， 可 提供 24 
个 不 同 的 地 址 。 这 使 得 每 个 以 太 网 硬件 接口 制造 商 可 以 给 硬件 接口 分 配 一 个 唯一 的 地 址 ， 以 保证 所 有 
互 连 的 以 太 网 中 的 工作 站 都 有 唯一 的 地 址 。 美 国电 气 和 电子 工程 师 协 会 〈《 正 EE) 作为 以 太 网 地 址 分 配 
的 负责 方 ， 将 不 同 范围 的 48 比特 地 址 分 配给 以 太 网 硬件 接口 制造 商 。 这 些 地 址 被 称 为 MAC 地 址 ， 因 
为 它们 用 于 介质 访问 控制 层 。 事 实 上 ， 以 这 种 方式 分 配 的 MAC 地 址 已 经 被 IEEE 802 家 族 中 其 他 网 络 
类 型 〈 例 如 802.11 (WiFi) 和 802. 15.1〈 蓝 牙 ) ) 采用 为 唯一 地 址 。 

数据 域 包含 要 传输 的 消息 的 全 部 或 一 部 分 〈 如 果 消 息 长 度 超过 1500 字 节 ) 。 数 据 域 的 下 限 为 46 F 
节 ， 这 可 以 保证 数据 包 最 小 长 度 为 64 字 节 ， 设 置 下 限 是 必要 的 ， 这 可 以 保证 网 络 上 所 有 工作 站 的 冲突 
都 能 检测 到 ， 下 文 对 此 做 了 解释 。 

帧 校 验 序列 是 一 个 校 验 和 ， 它 由 发 送 者 产生 并 插入 数据 包 中 ， 由 接收 者 用 于 验证 数据 包 。 校 验 和 不 
正确 的 数据 包 由 接收 工作 站 的 数据 链 路 层 丢 弃 。 这 是 端 到 端 争论 的 应 用 的 另 一 个 例子 ， 即 为 了 保证 消息 
的 传输 ， 必 须 使 用 像 TCP 这 样 的 传输 层 协议 ， 它 会 对 每 个 接收 到 的 数据 包 发 出 确认 信息 并 重 传 未 被 确认 
的 数据 包 。 在 局 域 网 中 ， 数 据 出 错 的 情况 非常 少 ， 所 以 当 需 要 保证 传输 时 ， 使 用 这 种 错误 恢复 方法 能 获 
得 令 人 满意 的 效果 ， 并且 当 不 需要 保证 数据 传输 时 ， 可 以 采用 像 UDP 这 样 开销 比较 小 的 协议 。 

数据 包 冲 突 ”即使 数据 包 的 传输 时 间 相 当 短 ， 也 有 可 能 出 现 网 络 上 两 个 工作 站 同时 传输 消息 的 情 
况 。 如 果 一 个 工作 站 试图 传输 一 个 数据 包 ， 而 没有 检查 传输 介质 是 否 被 另 一 个 工作 站 使 用 ， 就 会 产生 
冲突 。 

以 太 网 有 三 种 机 制 来 处 理 这 种 可 能 性 。 第 一 种 机 制 称 为 载波 侦 听 。 每 个 工作 站 的 接口 硬件 监听 在 
介质 上 出 现 的 信号 〈 称 为 载波 ， 类 似 于 无 线 电 广播 )。 当 一 个 工作 站 和 欲 传输 一 个 数据 包 时 ， 它 会 等 到 
介质 上 没有 信和 号 出 现时 才 开 始 传输 。 

遗 司 的 是 ， 载 波 侦 听 不 能 阻止 所 有 的 冲突 。 冲 突 存在 的 原因 是 ， 一 个 在 介质 的 某 个 点 插入 的 信号 
到 达 所 有 的 点 需要 有 限时 间 + (信号 以 电波 速度 传播 ， 大约 每 秒 2x10"m) 。 假 设 两 个 工作 站 4 和 8 JL 
平 同时 准备 传输 。 如 果 4 首先 开始 传输 ， 在 4 开始 传输 之 后 的 <7 时 间 内 ，8 检查 介质 ， 未 发 现 有 信 
5, 于 是 8 开始 传输 ， 但 它 干扰 了 4 的 传输 ， 最 后 4 和 8B 的 数据 包 都 会 被 干扰 、 破 坏 。 

从 这 种 于 扰 中 恢复 的 技术 称 为 冲突 检测 。 当 一 个 工作 站 通过 其 硬件 输出 端口 传送 一 个 数据 包 时 ， 
它 也 监听 它 的 输入 端口 ， 并 比较 两 个 信号 。 如 果 两 者 不 同 ， 则 说 明 发 生 了 冲突 。 此 时 工作 站 停止 传输 
并 产生 阻塞 信号 ， 通 知 所 有 工作 站 产生 了 一 个 冲突 。 我 们 已 经 注意 到 ， 最 小 数据 包 长 度 可 以 确保 检测 
到 冲突 。 如 果 两 个 工作 站 几乎 同时 从 网 络 的 另 一 端 传输 ， 它 们 在 27 秒 之 内 不 会 意识 到 冲突 〈 因 为 当 第 
一 个 发 送 者 接收 到 第 二 个 信和 号 时 ， 必 须 仍 然 继续 发 送 ) 。 如 果 它 们 发 送 的 数据 包 的 广播 时 间 小 于 r， 就 
注意 不 到 冲突 ， 因 为 每 个 发 送 工作 站 直到 传输 完 自 己 的 数据 包 才 会 看 到 别 的 数据 包 ， 而 中 间 的 工作 站 
将 因为 同时 接收 两 个 数据 包 而 产生 数据 裔 泪 。 

阻塞 信号 发 出 之 后 ， 所 有 传输 工作 站 和 监听 工作 站 取消 当前 的 数据 包 。 传 输 工 作 站 不 得 不 试图 重 
新 传输 它们 的 数据 包 。 这 会 产生 更 大 的 困难 。 如 果 发 生 冲 突 的 工作 站 都 试图 在 阻塞 信号 之 后 立即 重 传 
它们 的 数据 包 ， 就 可 能 发 生 另 一 个 冲突 。 为 避免 这 种 情况 ， 可 以 使 用 称 为 后 退 的 技术 。 发 生 冲 突 的 每 
个 工作 站 选择 在 传输 之 前 等 待 一 段 时 间 nr。n 是 一 个 随机 整数 ， 由 每 个 工作 站 分 别 选 取 ， 并 小 于 在 网 
络 软 件 中 定义 的 常数 L。 如 果 产 生 进一步 的 冲突 ， 将 虐 的 值 加 倍 ， 必 要 的 话 可 将 整个 过 程 重复 10 次 。 

最 后 ， 接 收工 作 站 的 接口 硬件 计算 校 验 序列 ， 并 将 之 与 数据 包 中 传送 的 校 验 和 相 比 。 使 用 这 些 技 
术 ， 连 接 到 以 太 网 的 工作 站 便 可 以 在 无 任何 集中 控制 或 同步 的 情况 下 管理 介质 的 使 用 。 

以 太 网 的 效率 ”以 太 网 的 效率 定义 为 成 功 传送 的 数据 包 的 个 数 与 无 冲突 情况 下 理论 上 能 传输 的 
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数据 包 的 最 大 值 之 间 的 比率 。 它 受 r 值 的 影响 ， 因 为 数据 包 传 送 后 的 27 秒 间隔 是 冲突 的 “机 会 窗 
A”, ， 即 在 数据 包 开 始 传输 2rs (W) 后 不 会 有 冲突 发 生 。 网 络 上 工作 站 的 数目 以 及 它们 的 活动 性 也 
会 影响 效率 。 

对 于 长 度 为 1km 的 电缆 ，r 的 值 小 于 5ms， 因 此 冲突 概率 很 小 ， 足 以 确保 传输 的 高 效 性 。 尽 管 当 
通道 利用 率 大 于 50% 时 ， 争 夺 通 道 造成 的 延迟 足以 令 人 重视 ， 但 以 太 网 仍 可 以 获得 80% ~95% 的 通道 
利用 率 。 因 为 负载 是 变化 的 ， 所 以 不 可 能 保证 在 一 段 固定 的 时 间 内 传递 给 定 信息 ， 原 因 是 网 络 可 能 在 
准备 传输 消息 时 变 成 满 负荷 运行 。 但 在 给 定 的 延迟 内 传递 消息 的 概率 等 同 或 好 于 其 他 网 络 技术 。 

Xerox PARC 的 Shoch 与 Hupp [1980] 报告 的 关于 以 太 网 性 能 的 实际 测量 数据 确认 了 上 述 分 析 。 在 
实际 中 ， 分 布 式 系统 中 使 用 的 以 太 网 负载 变化 很 大 。 很 多 网 络 主要 用 于 异步 客户 - 服务 器 交互 ， 在 大 
多 数 情况 下 ， 网 络 在 无 工作 站 等 待 传输 、 通 道 利用 率 接近 1 的 状况 下 运行 。 支 持 大 量 用 户 进行 批量 数 
据 访 问 的 网 络 会 承受 更 多 的 负载 ， 对 于 那些 携带 多 媒体 流 的 网 络 ， 如 果 有 几 个 流 同时 传输 的 话 ， 则 有 
可 能 被 淹没 。 

物理 实现 ”上面 的 叙述 定义 了 所 有 以 太 网 的 MAC 层 协 议 。 市 场 对 以 太 网 的 广泛 应 用 ， 使 得 我 们 可 
以 获得 执行 以 太 网 算法 的 低 成 本 的 控制 器 硬件 ， 它 已 成 为 很 多 桌面 计算 机 与 消费 类 计算 机 的 标准 部 件 。 

有 很 多 不 同 的 以 大 网 物理 实现 ， 它 们 是 基于 不 同 的 性 能 /成 本 权衡 提出 的 ， 也 利用 了 不 断 增 长 的 硬 
件 性 能 。 不 同 的 实现 源 于 使 用 了 不 同 的 传输 介质 ,包括 同 轴 电 缆 、 双 绞 线 (与 电话 线 相似 ) 以 及 光 
4, 它们 具有 不 同 的 传输 范围 ， 而 使 用 更 高 的 信号 速度 ,会 带 来 更 高 的 系统 带宽 与 更 短 的 传输 范围 。 
IEEE 采纳 了 不 同 的 物理 层 实现 标准 ， 并 有 一 个 区 分 它们 的 命名 方案 。 可 使 用 10Base5 与 100BaseT 这 样 
的 名 字 ， 它 们 具有 如 下 形式 ; 

<R><B><L> 
其 中 : R= 以 Mbps 计 的 数据 率 
8 = 媒体 信号 类 型 (基带 或 宽带 ) 
L= 以 米 /100 计 的 最 大 数据 片 长度 或 者 7 (WAR) 

我 们 将 当前 可 用 的 标准 配置 以 及 电缆 类 型 的 带宽 与 最 大 范围 列 在 图 3-23 中 。 以 了 结尾 的 配置 由 
UTP 电缆 〈 非 屏 项 双 绞 线 ， 即 电话 线 ) 实现 ， 它 被 组 织 成 集线器 层次 结构 ， 而 计算 机 作为 树 的 叶子 。 
在 这 种 情况 下 ， 表 中 给 出 的 数据 片 长 度 是 计算 机 到 集线器 的 最 大 允许 长 度 的 两 倍 。 












10Base5 10BaseT 100BaseT 1000BaseT 
数据 率 10Mbps 10Mbps 100Mbps 1000Mbps 
最 大 数据 片 长 度 
WAR (UTP) 100m 100m 100m 25m 
同 轴 电缆 (STP) 500m 500m 500m 25m 
多 模 光 纤 2000m 2000m 500m 500m 
单 模 光 纤 25 000m 25 000m 20 000m 2000m 





图 3-23 ”以 太 网 范围 和 速度 


针对 实时 应 用 和 服务 质量 至 关 重 要 的 应 用 的 以 太 网 ”以 太 网 MAC 协议 因为 缺乏 传递 延迟 的 保障 ， 
所 以 不 适合 实时 应 用 或 需要 质量 保证 的 应 用 ， 这 一 点 经 常 被 讨论 。 但 应 该 注意 到 ， 现 在 大 多 数 以 太 网 
的 安装 都 基于 MAC 层 交 换 机 的 使 用 (如 图 3-10 所 示 ， 有 关 的 描述 见 3. 3.7 节 ) ， 而 不 是 以 前 的 集线器 
或 带 有 堵 头 的 电费。 交换 机 的 使 用 使 得 每 个 主机 对 应 一 个 单独 的 网 段 ， 除 了 到 达 这 个 主机 的 包 之 外 没 
有 其 他 包 传 递 给 它 。 因 此 ， 如 果 到 该 主机 的 流量 来 自 一 个 源 ， 那 么 就 没有 介质 冲突 一 一 有 效 性 是 
100% ， 延 迟 是 常量 。 竞 争 的 可 能 性 仅 出 现在 交换 机 上 ， 这 些 能 够 并 且 经 常用 于 并 发 地 处 理 包 。 因 此 ， 
一 个 轻 负载 的 基于 交换 机 的 以 太 网 安装 几乎 100% 有 效 ,能 延迟 通常 是 一 个 小 常量 ， 所 以 它们 经 常 被 
成 功 地 用 于 关键 性 应 用 。 

对 以 太 网 风格 的 MAC 协议 的 实时 支持 可 见 [Rether, Pradhan and Chiueh 1998] 的 描述 ， 类 似 的 方 
案 在 开源 的 Linux 扩展 [RTnet] 中 实现 。 这 些 软件 方法 通过 实现 一 个 应 用 层 协作 协议 为 介质 的 使 用 保 
留 了 时 间 柳 ， 从 而 解决 了 竞争 问题 ， 它 依赖 连接 到 一 个 网 段 的 所 有 主机 的 协作 。 
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3.5.2 IEEE 802. 11 无 线 LAN 


本 节 将 总 结 无 线 LAN 技术 中 必须 解决 的 无 线 网 络 的 特殊 特征 ， 同 时 解释 IEEE 802. 11 是 如 何 处 理 
这 些 特征 的 。IEEE 802.11 (WiFi) 标准 扩展 了 以 太 网 (IEEE 802.3) 技术 采用 的 载波 侦 听 多 路 复 用 
(CSMA) 原理 以 适应 无 线 通信 的 特征 。802. 11 标准 引 在 支持 距离 在 150m 之 内 以 最 高 54Mbps 的 速度 进 
行 的 计算 机 间 通 信 。 

图 3-24 是 包含 无 线 LAN 的 企业 内 部 网 的 一 部 分 。 几 个 移动 无 线 设 备 通过 基站 和 企业 内 部 网 的 其 他 
设备 通信 ， 这 里 基站 是 有 线 LAN 的 接 入 点 。 通 过 接 入 点 与 传统 LAN 连接 的 无 线 网 络 称 为 基于 基础 设施 
的 无 线 网 络 。 





A B a = 
笔记 本 电脑 “= sl T A ak 
无 线 电 屏 障 
无 线 
掌上 电脑 D E LAN 
人 


服务 器 基站 / 接 入 点 


So ` 


LAN 
图 3-24 无 线 LAN 配置 


无 线 网 络 的 另 一 种 配置 方式 称 为 自 组 织 网 络 。 自 组 织 网 络 不 包括 接 人 点 或 基站 。 它 们 通过 同一 邻 
域 的 无 线 接口 检测 到 彼此 的 存在 ， 然 后 在 运行 中 建立 起 网 络 。 当 同一 房间 内 的 两 个 或 者 多 个 笔记 本 电 
脑 用 户 发 起 与 任何 可 用 站 点 的 连接 时 ， 就 会 形成 一 个 自 组 织 网 络 。 它 们 可 以 通过 在 某 台 机 器 上 启动 文 
件 服务 器 进程 来 共享 文件 。 

TEEE 802. 11 网 络 在 物理 层 采用 无 线 电 频率 信号 (利用 免 牌 照 使 用 的 2.4GHz 和 5GHz 波段 ) 或 者 
红外 线 作为 传输 介质 。 标 准 中 的 无 线 电 版 本 在 商业 上 广 受 注意 ， 下 面 我 们 将 介绍 它 。 正 EE 802. 11b 标 
准 是 第 一 个 广泛 使 用 的 派生 标准 。 它 在 2. 4GHz 波段 运行 ， 支 持 高 达 11Mbps 的 数据 通信 。 它 从 1999 年 
起 在 许多 办 公 室 、 家 庭 和 公共 场所 与 基站 一 起 被 安装 ， 使 笔记 本 电脑 和 PDA 能 访问 局 域 网 设备 或 互联 
网 。IEEE 802. 11g 是 对 802. 11b 最 近 的 更 新 ， 它 仍 使 用 2. 4GHz 波段 但 使 用 不 同 的 信号 技术 从 而 获得 高 
达 54Mbps 的 速度 。 最 后 ，802. 11a 派生 标准 工作 在 5GHz 波段 ， 在 更 短 范围 内 带宽 可 达 54Mbps。 所 有 
的 派生 标准 采用 不 同 的 频率 选择 或 者 跳 频 技术 ， 以 避免 外 部 干扰 以 及 独立 的 无 线 LAN 之 间 的 相互 干扰 
(后 者 我 们 不 准备 详细 讨论 ) 。 我 们 重点 讨论 对 CSMA/CD 机 制 做 的 修改 ， 这 些 修改 是 802. 11 的 所 有 版 
本 的 MAC 层 所 需要 的 ， 并 使 得 广播 数据 传输 可 以 用 到 无 线 电 传输 中 。 

和 以 太 网 一 样 ，802. 11MAC 协议 为 所 有 的 站 点 提供 相同 的 机 会 使 用 传输 通道 ， 站 点 之 间 可 以 直接 
传输 。 但 MAC 协议 控制 不 同 站 点 对 通道 的 使 用 。 对 以 太 网 而 言 ，MAC 层 起 到 了 数据 链 路 层 和 网 络 层 
的 作用 ， 它 负责 将 数据 包 发 送 到 网 络 的 主机 上 。 

使 用 无 线 电 波 〈 而 非 电线 ) 作为 传输 介质 会 产生 一 些 问题 。 这 些 问 题 源 于 以 太 网 使 用 的 载波 侦 听 
和 冲突 检测 机 制 仅 在 整个 网 络 的 信号 强度 大 致 相同 时 才 有 效 这 一 事实 。 

我 们 回忆 一 下 ， 载 波 侦 听 的 目的 是 确定 发 送 工作 站 和 接收 工作 站 间 的 所 有 结 点 上 的 介质 是 否 空闲 ， 
冲突 检测 的 目的 为 确定 在 接收 者 邻 域内 的 介质 是 否 空闲 ， 以 免 在 传输 时 受到 干扰 。 由 于 无 线 LAN 操作 
的 空间 内 信号 强度 不 均匀 ， 所 以 载波 侦 听 和 冲突 检测 可 能 出 现 如 下 几 种 错误 : 

工作 站 隐藏 载波 侦 听 没 能 检测 到 网 络 上 另 一 个 工作 站 正在 传输 。 图 3-24 可 以 说 明 这 一 点 ， 掌 上 
电脑 DD 正在 向 基站 传输， 由 于 图 中 所 示 的 无 线 电 有 屏障， 笔记 本 电脑 A 可 能 发 现 不 了 D 的 信号 。 于 是 
A 开始 传输 ， 若 不 采取 手段 防止 A 传输 ,将 在 点 造成 冲突 。 

信号 衰减 : 由 于 电磁 波 传输 遵循 反 平 方 规则 衰减 ， 因 此 随 着 和 传输 者 距离 的 增加 ， 无 线 电 信号 强 
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度 迅速 衰减 。 一 个 无 线 LAN 内 的 某 个 工作 站 可 能 在 其 他 工作 站 的 范围 之 外 。 如 图 3-24 所 示 ， 虽 然 笔 记 
本 电脑 A 或 C 可 以 成 功 地 向 B 或 下 传输 信号 ,但 A 却 可 能 检测 不 到 C 的 传输 。 信 号 衰减 使 得 载波 侦 听 
和 冲突 检测 都 失效 。 

冲突 屏蔽 : 遗憾 的 是 ， 以 太 网 中 用 来 检测 冲突 的 债 听 技术 在 无 线 电 网 络 中 并 不 是 十 分 有 效 。 因 为 
上 面 提 到 的 平方 衰减 规律 ， 本 地 产生 的 信号 总 是 比 其 他 地 方 产生 的 信和 号 强 很 多 ， 极 大 地 覆盖 了 远程 传 
输 。 因 此 ， 笔 记 本 电脑 A AC 可 能 同时 向 EE 传送 ,它们 都 没有 检测 到 冲突 ,但 EE 却 上 只 收 到 了 乱码 。 

REE, IEEE 802. 11 网 络 中 并 没有 废弃 载波 侦 听 ， 而 是 通过 在 MAC 协议 中 加 入 时 陈 保留 机 制 
对 载波 侦 听 机 制 进 行 加 强 。 这 种 方案 称 为 具有 冲突 避免 的 载波 侦 听 多 路 复 用 (CSMA/CA), 

在 工作 站 准备 发 送 消息 时 ， 它 侦 听 介质 。 如 果 没 有 检测 到 载波 信号 ， 它 假设 以 下 条 件 之 一 为 真 ; 

1) 介质 可 用 。 

2) 范围 之 外 的 工作 站 正在 请 求 获得 一 个 时 隙 。 

3) 范围 之 外 的 工作 站 正在 使 用 以 前 保留 的 时 阶 。 

时 际 保 留 协 议 包括 在 发 送 者 和 接收 者 之 间 交 换 一 对 短 消息 ( 帧 )。 首 先是 发 送 者 给 接收 者 发 一 个 
ARAZ (RTS) Wi, RTS 消息 指定 了 需要 的 时 隙 长 度 。 接 收 者 回复 清除 发 送 (CTS) W, HEARE 
的 长 度 。 这 种 交换 的 效果 如 下 : 

© 发 送 者 范围 内 的 工作 站 将 获得 RTS 帧 ， 并 记录 时 隙 长 度 。 

。 接收 者 范围 内 的 工作 站 将 获得 CTS 帧 ， 并 记录 时 隙 长 度 。 

结果 ， 发 送 者 和 接收 者 范围 内 的 所 有 工作 站 在 规定 的 时 隙 内 都 不 传输 ， 留 出 空闲 通道 给 发 送 者 ， 
使 之 能 传输 一 定 长 度 的 数据 帧 。 最 后 ， 接 收 者 对 数据 帧 的 成 功 传输 发 出 确认 信息 ， 以 帮助 处 理 通道 的 
外 部 干扰 问题 。MAC 协议 的 时 隙 保留 特征 在 以 下 几 个 方面 有 助 于 避免 冲突 ， 

© CTS 帧 有 助 于 避免 工作 站 隐藏 和 信和 号 衰减 问题 。 

。 RTS 和 CTS 帧 很 短 ， 所 以 冲突 的 风险 也 很 小 。 如 果 检 测 到 冲突 或 者 RTS 没有 得 到 CTS 回复 ， 

则 像 以 太 网 那样 ， 使 用 一 个 随机 后 退 周 期 。 
。 如 果 正 确 地 交换 了 RTS 和 CTS 帧 ， 那 么 随后 的 数据 和 确认 帧 应 当 没 有 冲突 ， 除非 间 葡 性 的 信 
号 衰减 导致 第 三 方 没有 接收 到 RTS 帧 或 者 CTS 帧 。 

安全 性 ”通信 的 私密 性 和 完整 性 显然 是 无 线 网 络 中 必须 关注 的 问题 。 处 于 范围 内 且 配 有 发 送 器 / 接 
收 器 的 任何 一 个 工作 站 都 可 能 加 入 这 个 网 络 ， 如 果 失 败 ， 它 也 可 能 窃听 其 他 工作 站 之 间 的 传输 。 第 一 
个 试图 为 IEEE 802. 11 解决 安全 问题 的 是 WEP (有 线 等 价 私密 性 )。 和 遗憾 的 是 ，WEP 并 没有 达到 它 各 
字 所 隐 含 的 目标 。 它 的 安全 设计 在 几 个 方面 都 有 漏洞 ， 使 得 它 很 容易 被 破坏 。 我 们 将 在 11. 6. 4 HR 
它 的 弱点 ， 并 总 结 当前 的 改进 情况 。 


3.5.3 IEEE 802. 15. 1 蓝牙 无 线 PAN 


蓝牙 是 一 种 无 线 个 域 网 技术 ， 源 于 通过 无 线 连接 移动 电话 与 PDA、 笔 记 本 电脑 以 及 其 他 个 人 设备 
的 需求 。 由 工 M. Ericsson 领导 的 移动 电话 和 计算 机 制造 商 的 一 个 特别 的 兴趣 小 组 ( SIG， 为 无 线 个 域 
网 (WPAN) 开发 了 一 个 规约 ， 用 于 传输 数字 声音 流 和 数据 [Haartsen et al. 1998], 1.0 版 的 蓝牙 标准 
于 1999 年 发 布 ， 蓝 牙 这 个 名 字 出 自 一 个 海盗 王 。 然 后 ，IEEE 802. 15 工作 组 采用 它 为 802. 15. 1 标准 并 
发 布 了 用 于 物理 层 和 数据 链 路 层 的 规约 【IEEE 2002], 

蓝牙 网 络 与 另 一 个 广泛 采用 的 无 线 网 络 标准 正 EE 802.11 (WiFi) 有 本 质 区 别 ， 它 们 在 反映 WPAN 
的 不 同 应 用 需求 、 不 同 开销 和 能 量 消耗 目标 上 有 所 不 同 。 蓝 牙 主要 针对 非常 小 的 低 开销 的 设备 ，( 例 如 
佩 无 线 耳 机 ) ， 它 从 移动 电话 接收 数字 声 频 流 ， 同 时 也 支持 计算 机 、 电 话 、PDA 和 其 他 移动 设备 之 间 
的 互 连 。 开 销 目标 是 在 手持 设备 的 开销 上 增加 5 美元 ， 能 量 目标 是 仅 使 用 电话 或 PDA 总 电量 的 一 小 部 
分 ,甚至 能 用 可 穿戴 设备 (如 耳机 ) 的 少量 电池 操作 数 小 时 。 

目标 应 用 一 般 要 求 的 带宽 比 典 型 无 线 LAN 应 用 更 少 ， 传 输 范 围 更 短 。 蓝 牙 很 幸运 地 与 WiFi 网 络 、 
无 绳 电话 和 许多 紧急 服务 通信 系统 都 在 2. 4GHz 免 牌照 频率 带宽 上 操作 。 传 输 以 低能 量 方式 进行 ， 在 
所 允许 频带 的 79 个 1MHz 的 子 带宽 上 以 每 秒 1600 次 的 比率 跳 肉 ， 以 减少 干扰 。 正 常 蓝 牙 设备 的 输出 功 
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率 是 ImW， 覆 盖 范 围 仅 为 10m; 100mW 设备 的 覆盖 范围 约 为 100m， 适 用 于 家 庭 网 络 类 的 应 用 。 通 过 
加 入 自 适应 范围 的 设施 ， 可 以 进一步 提高 能 量 的 有 效 性 。 自 适应 范围 的 设施 能 在 协作 的 设备 在 附近 
(由 最 初 接收 的 信号 强度 决定 ) 时 ， 将 传输 功率 调整 到 一 个 较 低 的 层次 。 

蓝牙 结 点 动态 结对 ， 不 需要 先 验 知识 。 下 面 将 给 出 结 点 关联 协议 。 在 成 功 关 联 后 ， 发 起 结 点 成 为 主 
结 点 角色 ,其 他 结 点 是 从 结 点 。 微 微 网 是 由 一 个 主 结 点 和 至 多 7 个 活动 的 从 结 点 组 成 的 动态 关联 网 络 。 
主 结 点 控制 通信 通道 的 使 用 ， 给 每 个 从 结 点 分 配 时 间 片 。 一 个 参与 多 个 微微 网 的 结 点 可 以 作为 沟通 主 结 
点 的 桥梁 一 一 按 这 种 方式 链接 的 多 个 微微 网 叫 散射 网 。 大 多 数 设备 具备 作为 主 结 点 或 从 结 点 的 能 力 。 

虽然 只 有 主 结 点 的 MAC 地 址 用 于 协议 中 ,但 所 有 的 蓝牙 结 点 也 都 配备 一 个 全 局 唯一 的 48 位 MAC 
地 址 ( 见 3.5.1 节 )。 当 一 个 从 结 点 在 微微 网 中 被 激活 ， 那 么 就 给 它 赋 予 一 个 范围 为 1 ~7 的 临时 的 本 
地 地 址 ， 以 减少 包头 部 的 长 度 。 除 了 7 个 激活 的 从 结 点 外 ， 一 个 微微 网 可 以 包含 至 多 255 个 停放 结 点 ， 
以 低 功率 的 模式 等 待 来 自主 结 点 的 激活 信号 。 

关联 协议 ”为 了 节省 能 源 ， 在 关联 前 或 最 近 没有 发 生 通信 时 ， 设 备 将 保持 睡眠 或 备用 模式 。 在 备 
用 模式 下 ， 设 备 每 隔 0. 64 ~ 2. 56s 监听 一 次 激活 消息 。 为 了 与 附近 已 知 的 结 点 〈 停 放 结 点 ) 相关 联 ， 
发 起 结 点 以 16 PEAR, KH 16 页 的 包 序 列 ， 这 个 过 程 能 重复 多 次 。 为 了 与 范围 内 未 知 结 点 相关 
联 ， 发 起 者 必须 首先 广播 查询 消息 序列 。 在 最 坏 情 况 下 ， 这 些 传输 序列 最 多 占用 5s， 从 而 使 最 大 的 关 
联 时 间 约 占 7 ~ 10s. 

关联 之 后 ， 是 一 个 可 选 的 认证 交换 ， 该 交换 基于 用 户 提 供 的 或 以 前 接收 到 的 认证 令 牌 完成 ， 以 确 
保 与 想 要 关联 的 结 点 关联 ， 而 不 是 与 一 个 欺骗 结 点 关联 。 接 着 ， 通 过 观察 从 主 结 点 定时 发 送 的 包 〈 即 
使 这 些 包 不 是 发 送 给 从 结 点 的 ) ， 从 结 点 与 主 结 点 保持 同步 。 未 激活 的 从 结 点 将 被 主 结 点 置 为 停放 模 
式 ， 将 它 在 微微 网 中 占用 的 槽 释放 供 其 他 结 点 使 用 。 

如 果 网 络 需 要 支持 同步 通信 通道 ， 并 要 求 有 足够 的 服务 质量 以 进行 双向 实时 音频 的 传输 (如 在 电 
话 和 用 户 的 无 线 耳 机 间 的 传输 ) ， 同 时 ， 需 要 对 数据 交换 异步 通信 提供 支持 ， 那 么 网 络 的 体系 结构 与 以 
KAA WF 网 的 尽力 而 为 多 路 访问 的 设计 不 同 。 同 步 通信 是 通过 同步 面向 连接 (SCO) 的 链 路 实现 
的 ，SCO 是 在 主 结 点 和 一 个 从 结 点 之 间 的 一 个 简单 的 双向 通信 协议 ， 主 结 点 和 从 结 点 必须 轮流 地 发 送 
同步 包 。 蜡 步 通信 是 通过 异步 无 连接 (ACL) 链 路 实现 的 ， 这 时 ， 主 结 点 周期 性 地 向 从 结 点 发 送 异 步 
轮 询 包 ， 从 结 点 仅 在 接收 到 轮 询 后 发 送 包 。 

蓝牙 协议 的 所 有 变 体 都 使 用 结构 如 图 3-25 所 示 的 帧 。 一 旦 建立 了 微微 网 ， 那 么 访问 码 由 一 个 固定 
的 导言 组 成 ， 以 使 发 送 者 和 接收 者 同步 ， 并 识别 槽 的 起 点 ， 然 后 是 从 主 结 点 的 MAC 地 址 中 导出 的 唯一 
识别 微微 网 的 代码 。 后 者 确保 帧 在 有 多 个 重合 的 微微 网 的 情况 下 也 能 正确 地 路 由 。 因 为 介质 可 能 有 品 
声 ， 并 且 实 时 通信 不 能 依赖 重 传 ， 所 以 头 部 总 是 传输 三 次 ， 头 部 的 每 一 个 拷贝 也 携带 一 个 校 验 和 ， 接 
收 者 检查 校 验 和 并 使 用 第 一 个 有 效 的 头 部 。 


比特 : 72 54 0 ~ 2744 


访问 码 | 头 部 ( 完 余 编码 ) a 要 传输 的 数据 
De ae i el 
比特 : 3 l 1 1 4 S 
目的 地 流 确认 序号 KH 头 部 的 校 验 和 
微微 网 内 的 地 址 =ACL, SCO, poll, null 


SCO 包 (例如 传递 声音 数据 的 ) 有 240 比 特有 效 负 载 ， 包 含 80 比 特 数据 的 3 个 
副本 ， 正 好 占 一 个 时 间 槽 。 


图 3-25 ”蓝牙 的 帧 结构 


地 址 域 只 有 3 比特 ， 以 便 寻 址 到 7 个 当前 激活 的 从 结 点 。 发 自主 结 点 的 0 地 址 表示 是 一 个 广播 。 
流 控 制 、 确 认 和 序号 均 用 1 比特 的 域 表 示 。 流 控制 比特 是 供 从 结 点 使 用 的 ， 用 于 告知 主 结 点 它 的 缓冲 
区 已 满 。 主 结 点 应 该 等 待 来 自从 结 点 的 确认 比特 非 0 的 帧 。 每 次 新 的 帧 从 同一 结 点 发 出 ， 序 列 号 位 就 
翻转 一 下 。 这 用 于 检测 重复 〈 即 重 传 的 ) W 

SCO 链 路 被 用 于 时 间 关 键 性 应 用 ， 例 如 双向 语音 交谈 的 传输 。 为 了 保持 低 延 迟 ， 数 据 包 必须 短 ， 
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在 这 种 应 用 中 报告 或 重 传 损 坏 的 数据 包 ， 没有 太 大 的 意义 ， 因 为 重 传 的 数据 到 达 得 太 晚 就 没有 用 了 。 
所 以 ，SC0 协议 使 用 了 一 个 简单 的 高 度 元 余 的 协议 ， 其 中 80 比特 的 声音 数据 按 3 倍 量 传输 ， 即 产生 
240 比特 的 有 效 负载 。 任 何 两 两 匹配 的 80 比特 的 副本 被 认为 是 有 效 的 。 

另 一 方面 ，ACL 链 路 可 用 于 数据 传输 应 用 ， 例 如 在 一 台 计算 机 和 一 部 电话 之 间 的 地 址 短 同 步 ， 此 
时 的 负载 比 上 述 的 应 用 更 大 。 这 里 不 复制 负载 ,但 可 能 包含 一 个 内 部 的 校 验 和 ， 用 于 应 用 层 的 检查 ， 
如 果 出 现 故障 ， 可 以 要 求 重 传 。 

数据 以 包 为 单位 传递 ， 由 主 结 点 分 配 和 控制 数据 包 传 递 所 需 的 时 间 ， 数 据 包 传递 占据 625ms 的 时 间 
柳 。 每 个 数据 包 按 不 同 的 频率 沿 一 个 由 主 结 点 指定 的 跳 牙 顺 序 传输 。 因 为 这 些 权 没有 大 到 足以 允许 实际 
的 负载 ， 所 以 帧 可 以 被 扩展 至 占据 1、3 或 5 个 档 。 这 些 特 征 和 底层 的 物理 传输 方法 使 微微 网 的 最 大 吞吐 
量 达到 1Mbps， 可 在 主 结 点 和 从 结 点 之 间 提 供 3 个 64Kbps 的 同步 双 工 通道 ,或 一 个 用 于 异步 数据 传递 的 
速率 最 大 为 723Kbps 的 通道 。 这 些 吞 吐 量 是 根据 上 述 最 元 余 的 SCO 协议 版 本 计算 出 来 的 。 其 他 协议 变 体 
则 是 为 获得 更 大 吞吐 量 权衡 了 3 倍数 据 复制 的 健壮 性 和 简单 性 〈 因 此 计算 开销 降低 ) 而 定义 的 。 

与 大 多 数 网 络 标准 不 同 ， 蓝 和 牙 包 含 了 几 个 应 用 层 协议 的 规约 〈 叫 设置 文件 ) ， 有 些 协议 是 专用 于 某 
一 类 应 用 的 。 设 置 文件 的 目的 是 增加 互 连 不 同 厂商 制造 的 设备 的 可 能 性 。13 个 应 用 设置 文件 包括 : 通用 
访问 、 服 务 发 现 、 串 行 端口 、 通 用 对 象 交 换 、LAN A, RSM. ER. TAER WHI, EPE, 
对 象 推送 、 文 件 传输 和 同步 。 其 他 的 设置 文件 还 在 准备 中 ,包括 通过 蓝牙 传输 高 质量 的 音频 甚至 视频 。 

蓝牙 在 无 线 局 域 网 中 占据 特殊 的 地 位 。 它 达到 了 支持 具有 令 人 满意 的 服务 质量 的 同步 实时 音频 通 
信 (参见 第 20 章 有 关 服 务 质量 问题 的 进一步 讨论 ) 以 及 用 非常 低 的 开销 、 小 型 便携 式 硬件 、 低 能 耗 和 
有 限 带 宽 进行 异步 数据 传输 的 目标 。 

蓝牙 主要 的 不 足 在 于 与 新 设备 关联 所 花 的 时 间 (最 多 可 达 10s) 。 这 妨碍 了 它 在 茶 些 应 用 中 的 使 
用 ， 特 别 是 在 设备 之 间 相 对 移动 的 情况 下 的 使 用 ， 例 如 在 道路 收费 或 在 移动 电话 用 户 经 过 一 个 商店 时 
传递 提示 信息 给 他 。 关 于 蓝牙 连 网 的 详细 内 容 可 参考 Bray 和 Sturman [2002] 的 书 。 

蓝牙 标准 2. 0 版 〈 其 数据 吞吐 量 可 高 达 3Mbps， 足 够 承载 CD 音质 的 音频 数据 ) 已 于 2004 年 发 布 。 
其 他 的 改进 包括 更 快 的 关联 机 制 和 更 大 的 微微 网 地 址 。 在 写作 本 书 过 程 中 ， 蓝 牙 标 准 的 第 3 版 和 第 4 
版 正在 开发 中 。 蓝 牙 标准 第 3 版 把 蓝牙 控制 协议 同 WF 数据 传输 层 结合 以 实现 可 达到 24Mbps 的 吞吐 
量 。 蓝 牙 标准 第 4 版 正在 开发 中 ， 将 针对 那些 需要 很 长 电池 寿命 的 设备 开发 超 低 功 耗 蓝牙 技术 。 


3.6 小 结 


我 们 重点 讨论 了 作为 分 布 式 系统 基础 的 网 络 概念 和 技术 ， 并 从 一 个 分 布 式 系统 设计 者 的 角度 对 此 
做 了 探讨 。 数 据 包 网 络 和 分 层 协议 是 分 布 式 系统 的 通信 基础 。 局 域 网 是 基于 共享 介质 上 的 数据 包 广 播 
技术 ， 其 中 以 太 网 是 主流 技术 。 广 域 网 则 基于 包 交 换 将 数据 包 通过 连接 的 网 络 路 由 到 目的 地 。 路 由 选 
择 是 关键 问题 ， 目 前 有 不 少 路 由 算法 ， 其 中 距离 - 向 量 算法 是 最 基本 但 却 非 常 有 效 的 一 种 算法 。 必 须 
要 进行 拥塞 控制 来 防止 接收 方 和 中 间 结 点 的 缓冲 区 溢出 。 

通过 在 路 由 髓 连接 的 一 组 网 络 上 香 加 “虚拟 ”互连网 络 协议 ， 可 以 构造 互连网 络 ， 互 联网 的 TCP/ 
IP 协议 使 互联 网 上 的 计算 机 可 以 以 统一 的 方式 通信 ， 无 论 它 们 是 在 同一 个 局 域 网 上 ， 还 是 在 不 同 的 国 
家 。 互 联网 标准 包括 许多 适合 广 域 分 布 式 应 用 的 应 用 层 协议 。IPv6 为 将 来 互联 网 的 发 展 预 留 了 相当 大 
的 地 址 空间 ， 并 对 服务 质量 和 安全 性 等 新 的 应 用 需求 做 了 规定 。 

Bay IP 支持 移动 用 户 进 行 广 域 漫游 ， 基 于 IEEE 802 标准 的 无 线 LAN 支持 移动 用 户 进行 本 地 连接 。 


练习 
3.1 一 个 客户 将 200 字 节 的 请 求 消息 发 送 到 一 个 服务 ， 服 务 产生 了 5000 字 节 的 应 答 。 估 算 在 下 列 情 况 下 ， 
完成 请 求 的 时 间 (其 性 能 假设 在 后 面 列 出 ) 。 
1) 使 用 无 连接 《数据 报 ) 通信 《例如 UDP) 
2) 使 用 面向 连接 (数据 报 ) 的 通信 (例如 TCP) 
3) 服务 器 进程 与 客户 进程 在 同一 台 计算 机 上 。 
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其 中 ; 在 发 送 或 接收 时 ， 每 个 数据 包 的 延迟 〔 本 地 或 远程 ) ， Sms 
建立 连接 的 时 间 ( 仅 对 TCP); Sms 
数据 传输 速率 : 10Mbps 


MTU; 1000 字 节 

服务 器 请 求 处 理 时 间 : 2ms 

假设 网 络 处 于 轻 负载 状态 。 (Fs 82 页 ,第 122 页 ) 
互联 网 非常 大 ， 任 何 路 由 器 均 无 法 容纳 所 有 目的 地 的 路 由 信息 ， 那 么 互联 网 路 由 方案 如 何 处 理 这 个 问 
题 呢 ? (第 98 页 , 第 114 页 ) 
以 太 网 交换 机 的 任务 是 什么 ? 它 要 维护 哪些 表 ? (第 105 页 , 第 130 页 ) 
构造 一 个 类 似 于 图 3-5 的 表 ， 描 述 当 互 联网 应 用 与 TCP/IP 协议 组 在 以 太 网 上 实现 时 ， 每 个 协议 层 中 
的 软件 所 做 的 工作 。 (第 94 页, 第 122 页 , 第 130 页 ) 
端 到 端 争论 [Saltzer et al. 1984] 是 如 何 用 于 互联 网 的 设计 的 ? 考虑 用 虚 电 路 网 协议 代替 P 会 如 何 影 
响 万 维 网 的 可 行 性 。 (第 61 页 , 第 96 页 ， 第 106 页 ) [www. reed. com] 
我 们 能 确保 互联 网 中 不 会 有 两 台 计算 机 使 用 同一 个 P 地 址 吗 ? (第 108 页 ) 


对 于 下 面 应 用 层 和 表示 层 协议 的 实现 ， 比 较 无 连接 (UDP) 与 面向 连接 (TCP) 通信 。 
1) 虚拟 终端 访问 (例如 Telnet) 

2) 文件 传输 (例如 FTP) 

3) 用 户 位 置 (例如 rwho, finger) 

4) 信息 浏览 (例如 HTTP) 


5) 远程 过 程 调 用 (第 122 页 ) 
解释 在 广域网 络 中 ， 为 什么 会 发 生 数据 包 序列 到 达 目 的 时 的 顺序 与 出 发 时 的 顺序 不 同 的 现象 。 为 什么 
这 种 现象 在 局 域 网 中 不 可 能 出 现 ? (5897 页 , 第 131 页 ) 


在 Telnet 这 样 的 远程 终端 访问 协议 中 需要 解决 一 个 问题 ， 即 “Kil 信号 ”这 样 的 异常 事件 需要 在 前 面 
传输 的 数据 之 前 到 达 主 机 。Kil 信号 应 该 在 任何 其 他 正在 进行 的 传输 之 前 到 达 目 的 地 。 讨 论 该 问题 在 


无 连接 与 面向 连接 协议 下 的 解决 方案 。 (第 122 页 ) 
使 用 网 络 层 广播 在 以 下 网 络 中 定位 资源 有 哪些 缺点 ? 
1) 在 单个 以 太 网 中 
2) 在 企业 内 部 网 中 
以 太 网 组 播 在 何 种 程度 上 改善 了 广播 ? (第 130 页 ) 
提出 一 个 改善 移动 IP 的 方案 ， 以 便 一 个 移动 设备 可 以 访问 Web 服务 器 ， 该 移动 设备 有 时 通过 移动 电 
话 连接 到 互联 网 上 ， 而 在 其 他 时 候 通 过 有 线 网 连接 到 互联 网 上 。 (第 120 页 ) 
说 明 在 图 3-7 中 标号 为 3 的 链 路 断 开 后 ， 图 3-8 中 路 由 表 的 改变 序列 ORIRE 3-19 中 给 出 的 RIP 
算法 )。 (第 8 页 ~ 第 101 页 ) 
以 图 3-13 为 基础 ， 描 述 到 服务 器 的 一 个 HTTP 请 求 的 分 割 与 封装 过 程 以 及 相应 的 应 答 。 假 设 请 求 是 
一 个 短 的 HTTP 消息 ， 而 应 管 包 括 至 少 2000 字 节 的 HTML, (第 93 页 , 第 107 页 ) 


考虑 在 Telnet 远程 终端 客户 中 使 用 TCP。 应 该 如 何在 客户 端 缓冲 键盘 输入 ? 在 1) 一 个 Web 服务 器 ; 
2) 一 个 Telnet 应 用 ; 3) 一 个 具有 连续 鼠标 输入 的 远程 图 形 应 用 使 用 TCP 时， 研究 Nagle 与 Clark 的 
流 控制 算法 [Nagle 1084, Clark 1982] 与 3.4.6 节 描 述 的 简单 算法 ， 比 较 这 两 个 算法 。 

(第 102 页 , 第 124 页 ) 
参照 图 3-10， 构 造 你 工作 单位 的 局 域 网 的 网 络 图 。 (第 104 页 ) 
描述 如 何 配置 防火 墙 ， 以 保护 你 的 工作 单位 的 局 域 网 。 应 该 拦截 娜 些 进出 的 请 求 ? (第 125 页 ) 

一 个 连接 到 以 太 网 的 新 安装 的 个 人 计算 机 是 如 何 发 现 本 地 服务 器 的 IP 地 址 的 ? 它 是 如 何 将 四 地址 
翻译 成 以 太 网 地 址 的 ? (第 111 R) 
防火 墙 是 否 可 以 防止 % 页 描述 的 服务 拒绝 攻击 ? 可 以 使 用 哪些 其 他 方法 处 理 这 样 的 攻击 ? 

(第 112 页 , 第 125 页 ) 
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本 章 关注 分 布 式 系统 进程 之 间 的 通信 协议 的 特征 ， 即 进程 间 通 信 (interprocess communication) , 

用 于 互联 网 中 进程 间 通 信 的 Java API 提供 数据 报 和 流通 信 。 本 章 将 介绍 这 两 方面 的 内 容 ， 同 时 讨论 
它们 的 故障 模型 。 它 们 为 通信 协议 提供 了 可 互 换 的 构造 成 分 。 本 章 将 讨论 消息 中 数据 对 象 集合 的 表示 协 
议和 引用 远程 对 象 的 协议 。 在 下 面 的 两 章 中 ， 讨 论 将 这 些 服务 结合 在 一 起 为 高 级 通信 服务 提供 支持 。 

上 述 所 有 用 于 进程 间 通 信 的 服务 支持 点 对 点 通信 ， 而 且 也 能 从 一 个 发 送 者 发 送 一 个 消息 给 一 组 接 
收 者 。 本 章 也 关注 组 播 通 信 ， 包 括 中 组 播 以 及 组 播 通信 中 消息 的 可 靠 性 及 其 顺序 的 主要 概念 。 

分 布 式 应 用 需要 组 播 ， 即 使 没有 了 P 组 播 的 底层 支持 也 必须 提供 组 播 。 通常 可 以 通过 在 TCP/IP 网 
络 之 上 构建 一 个 覆盖 网 络 提供 对 组 播 的 支持 。 覆 盖 网 络 也 可 以 为 文件 共享 、 增 强 可 靠 性 和 内 容 分 发 提 
供 支 持 。 

消息 传递 接口 (Message Passing Interface, MPI) 是 一 个 标准 ， 为 一 组 具有 同步 和 异步 支持 的 消息 
传递 操作 提供 API。 


4.1 简介 


本 章 和 下 两 章 将 关注 中 间 件 之 间 的 通信 ， 虽 然 所 讨论 的 原则 是 可 以 广泛 应 用 的 。 本 章 关注 图 4-1 
中 深 色 部 分 标 出 的 组 件 设计 ， 该 层 的 上 层 将 在 第 5 章 中 讨论 (考察 远程 调用 ) 。 第 6 章 讨论 间接 通信 的 
范 型 。 





应 用 、 服 务 


远程 调用 和 间接 通信 


本 章 “底层 进程 间 通 信 原 语 : 中 间 件 层 
RRF WMR AML MEMA 


UDP 和 TCP 


图 4-1 中 间 件 层 


第 3 章 讨论 了 互联 网 传输 层 协议 UDP 和 TCP， 但 没有 介绍 中 间 件 和 应 用 程序 如 何 使 用 这 些 协议 。 
下 一 节 将 介绍 进程 间 通信 的 特征 ， 并 从 编程 人 员 的 角度 讨论 UDP 和 TCP， 给 出 这 两 个 协议 各 自 的 Java 
接口 ， 同 时 讨论 它们 的 故障 模型 。 

UDP 的 应 用 程序 接口 提供 了 消息 传递 《message passing) 抽象 一 一 进程 间 通 信 的 最 简单 形式 。 这 
使 得 一 个 发 送 进程 能 够 给 一 个 接收 进程 传递 一 个 消息 。 包 含 这 些 消息 的 独立 的 数据 包 称 为 数据 报 
(datagram) 。 在 Java 和 UNIX API 中 ， 发 送 方 用 套 接 字 指定 目的 地 ， 套 接 字 是 对 目的 计算 机 上 的 目标 进 
程 使 用 的 一 个 特定 端口 的 间接 引用 。 

TCP 的 应 用 程序 接口 提供 了 进程 对 之 间 的 双向 流 〈two- way stream) 抽象 。 相 互通 信 的 信息 由 没有 
消息 边界 的 一 连 串 数据 项 组 成 。 流 为 生产 者 - 消费 者 通信 提供 了 构造 成 分 。 生 产 者 和 消费 者 形成 一 对 
进程 ， 前 者 的 作用 是 产生 数据 项 ， 后 者 的 作用 是 消费 数据 项 。 由 生产 者 发 送 给 消费 者 的 数据 项 按 到 达 
顺序 排 在 队列 中 ， 直 到 消费 者 准备 好 接收 它们 为 止 。 在 没有 可 用 的 数据 项 时 ， 消 费 者 必须 等 待 。 如 果 
存放 人 队 数 据 项 的 存储 空间 耗 尽 的 话 ， 生 产 者 也 必须 等 待 。 

考虑 到 不 同 的 计算 机 可 能 对 简单 数据 项 使 用 不 同 的 表示 方法 ，4. 3 节 将 介绍 如 何 将 应 用 程序 使 用 
的 对 象 和 数据 结构 翻译 成 适合 的 形式 ， 以 便 在 网 络 上 发 送 消息 。4. 3 节 还 将 讨论 分 布 式 系统 中 适合 表 
示 对 象 引 用 的 一 种 方法 。 
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4.4 节 讨 论 组 播 通 信 : 组 播 是 进程 间 通 信 的 一 种 ， 在 这 种 形式 下 ， 一 组 进程 中 的 一 个 进程 将 同一 
个 消息 传送 给 组 中 的 所 有 成 员 进 程 。 解 释 完 人 P 组 播 ， 将 讨论 对 更 可 靠 的 组 播 的 需求 。 

4.5 节 讨 论 越 来 越 重 要 的 覆盖 网 络 。 覆 盖 网 络 建立 在 另 一 个 网 络 之 上 ， 人 允许 应 用 程序 将 消息 路 由 
到 没有 指定 IP 地 址 的 目的 地 。 履 盖 网 络 通过 可 选 的 、 更 加 专业 的 网 络 服务 来 增强 TCP/IP 网 络 的 性 能 。 
在 支持 组 播 通信 和 对 等 通信 方面 ， 覆 盖 网 络 尤为 重要 。 

最 后 ，4. 6 节 研 究 一 个 重要 的 消息 传递 服务 的 实例 MPI， 它 是 由 高 性 能 计算 社区 开发 的 。 


4.2 互联 网 协议 的 API 

本 节 将 讨论 进程 间 通 信 的 普遍 特征 ， 然 后 将 互联 网 协议 作为 一 个 例子 讨论 ， 解 释 程 序 员 如 何 通 过 
UDP 消息 或 TCP 流 使 用 这 些 协 议 。 

4.2.1 节 将 回顾 2. 3. 2 节 提 到 的 消息 通信 操作 发 送 (send) 和 接收 〈receive) ， 并 讨论 它们 如 何 相 
互 同 步 以 及 如 何在 分 布 式 系统 中 指定 消息 的 目的 地 。4. 2. 2 节 将 介绍 套 接 字 (socket), CHAT UDP 和 
TCP 的 应 用 编程 接口 中 ，4. 2. 3 节 会 讨论 UDP 及 其 Java API，4. 2.4 节 讨 论 TCP 及 其 Java API, Java API 
是 面向 对 象 的 ， 但 它 与 最 初 在 Berkeley BSD4. x UNIX 操作 系统 中 设计 的 API 很 相似 。 随 后 研究 一 个 实 
例 ， 这 个 实例 可 以 在 www. cdk5, net/ipc 上 找到 。 研 究 本 节 程序 例子 的 读者 应 该 参阅 Java 在 线 文档 或 
Flanagan [2002] 的 书 ， 以 便 得 到 所 讨论 的 类 (在 java. net 包 中 ) 的 完整 规约 。 


4.2.1 进程 间 通 信和 的 特征 

由 send 和 receive 这 两 个 消息 通信 操作 来 支持 一 对 进程 间 进行 的 消息 传递 ， 它 们 均 用 目的 地 和 消 
息 定义 。 为 了 使 一 个 进程 与 男 一 个 进程 通信 ， 一 个 进程 发 送 一 个 消息 ( 字 节 序列 到 目的 地 ， 在 目 
的 地 的 另 一 个 进程 接收 消息 。 该 活动 涉及 发 送 进程 到 接收 进程 间 的 数据 通信 ， 会 涉及 两 个 进程 的 同 
步 。4.2.3 节 将 给 出 互联 网 协议 的 Java API 中 的 send 和 receive 操作 的 定义 ,在 4.6 节 将 深入 讨 
论 MPI。 

同步 和 异步 通信 每 个 消息 目的 地 与 一 个 队列 相关 。 发 送 进程 将 消息 添加 到 远程 队列 中 ， 接 收 进 
程 从 本 地 队列 中 移 除 消息 。 发 送 进程 和 接收 进程 之 间 的 通信 可 以 是 同步 的 也 可 以 是 异步 的 。 在 同步 
(synchronous) 形式 的 通信 中 ， 发 送 进 程 和 接收 进程 在 每 个 消息 上 同步 。 这 时 ，send 和 receive 都 是 阻 
塞 操作 。 每 次 发 出 一 个 send 操作 后 ， 发 送 进程 (MAB) 将 一 直 阻 塞 ， 直 到 发 送 了 相应 的 receive 操作 
为 止 。 每 次 发 送 一 个 receive JG, VER (MAB) 将 一 直 阻 蹇 ， 直 到 消息 到 达 为 止 。 

在 异步 〈asynchronous) 形式 的 通信 中 ，send 操作 是 非 阻塞 的 ， 只 要 消息 被 复制 到 本 地 缓冲 区 ， 发 
送 进程 就 可 以 继续 进行 其 他 处 理 ， 消 息 的 传递 与 发 送 进程 并 行进 行 。receive 操作 有 阻塞 型 和 非 阻 塞 型 
丙种 形式 。 在 不 阻塞 的 receive 操作 中 ， 接 收 进程 在 发 出 receive 操作 后 可 继续 执行 它 的 程序 ， 这 时 
receive 操 作 在 后 台 提 供 一 个 缓 神 区 ， 但 它 必 须 通过 轮 御 或 中 断 独立 接收 缓冲 区 已 满 的 通知 。 

在 支持 多 线程 的 系统 环境 (如 Java) F, HAW receive 操作 的 缺点 较 少 ， 因 为 在 一 个 线程 发 出 
receive 操 作 时 ， 该 进程 中 的 其 他 线程 仍然 是 活动 的 ， 到 达 的 消息 与 接收 线程 同步 的 实现 简单 是 一 个 优 
势 。 非 阻塞 型 的 通信 看 上 去 更 有 效 ， 但 接收 进程 需要 从 它 的 控制 流 之 外 获取 到 达 的 消息 ， 这 涉及 额外 
的 复杂 工作 。 鉴 于 此 ， 当 前 的 系统 通常 不 提供 非 阻 塞 型 的 receive 操作 。 

消息 目的 地 第 3 章 解 释 了 在 互联 网 协议 中 ， 消 息 如 何 被 发 送 到 (互联 网 地 址 (Internet address), 
本 地 端口 (local port)) 对 。 本 地 端口 是 计算 机 内 部 的 消息 目的 地 ， 用 一 个 整数 指定 。 一 个 端口 只 能 有 
一 个 接收 者 〈 组 播 端口 是 一 个 例外 ， 见 4. 5. 1 节 ) 但 可 以 有 多 个 发 送 者 。 进 程 可 以 使 用 多 个 端口 接收 
消息 。 任 何 知道 端口 号 的 进程 都 能 向 端口 发 送 消 息 。 服 务 器 通常 公布 它们 的 端口 号 供 客户 使 用 。 

如 果 客 户 使 用 一 个 固定 的 互联 网 地 址 访问 一 个 服务 ， 那 么 这 个 服务 必须 总 在 该 地 址 所 代表 的 计算 
机 上 运行 ， 以 保持 该 服务 的 有 效 性 。 使 用 下 列 任 何 一 种 方法 可 避免 这 种 情况 ， 以 提供 位 置 透明 性 ;: 

。 客户 程序 通过 名 字 使 用 服务 ， 在 运行 时 用 一 个 名 字 服 务 器 或 绑 定 器 (参见 5.4.2 47) 把 服务 的 

名 字 翻 译 成 服务 器 位 置 。 这 样 就 使 得 服务 能 重 定位 ， 但 不 能 迁移 ， 迁 移 指 在 系统 运行 时 移动 服 
务 所 在 的 位 置 。 
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可 靠 性 第 2 章 从 有 效 性 和 完整 性 角度 定义 了 可 靠 通信 。 就 有 效 性 而 言 ， 如 果 一 个 点 对 点 消息 服 
务 在 丢失 了 “合理 ”数量 的 数据 包 后 ， 仍 能 保证 发 送 消息 ， 那 么 该 服务 就 被 称 为 可 靠 的 。 相 反 ， 只 和 于 
失 一 个 数据 包 ， 消 息 就 不 能 保证 发 送 ， 那 么 这 个 点 对 点 消息 服务 仍 是 不 可 靠 的 。 从 完整 性 而 言 ， 到 达 
的 消息 必须 没有 损坏 ， 且 没有 重复 。 

排序 ”有些 应 用 要 求 消息 要 按 发 送 方 的 顺序 发 送 ， 也 就 是 ， 按 发 送 方 发 送 消息 的 顺序 。 与 发 送 方 
顺序 不 一 致 的 消息 发 送 会 被 这 样 的 应 用 认为 是 失败 的 发 送 。 


4.2.2 dete 


两 种 形式 的 通信 (UDP 和 TCP) 都 使 用 套 接 字 (socket) 抽象 ， 套 接 字 提 供 进 程 间 通 信 的 一 个 端 
点 。 套 接 字源 于 BSD UNIX, [EEE UNIX 的 大 多 数 版 本 中 出 现 ， 包 括 Linux 以 及 Windows 和 Macintosh 
0S。 进 程 间 通 信 是 在 两 个 进程 各 自 的 一 个 套 接 字 之 间 传 送 一 个 消息 ， 如 图 4-2 所 示 。 对 接收 消息 的 进 
程 ， 它 的 套 接 字 必 须 绑 定 到 它 在 其 上 运行 的 计算 机 的 一 个 互联 网 地 址 和 一 个 本 地 端口 。 发 送 到 特定 互 
联网 地 址 和 端口 号 的 消息 只 能 被 一 个 其 套 接 字 与 该 互联 网 地 址 和 端口 号 相关 的 进程 接收 。 进 程 可 以 使 
用 同一 套 接 字 发 送 和 接收 消息 。 每 个 计算 机 有 大 量 (2°) 可 用 的 端口 号 供 本 地 进程 用 于 接收 消息 。 任 
意 一 个 进程 可 利用 多 个 端口 来 接收 消息 ， 但 一 个 进程 不 能 与 同一 台 计 算 机 上 的 其 他 进程 共享 端口 。 使 
用 下 组 播 的 进程 是 一 个 例外 ， 因 为 它们 共享 端口 (参见 4.4. 1 节 )。 然 而 ， 任 何 数量 的 进程 都 可 以 发 
送 消息 到 同一 个 端口 。 每 个 套 接 字 与 某 个 协议 (UDP 或 TCP) 相关 。 





套 接 字 D tem eai 套 接 字 
客户 a i 一 (人 >», 服务 器 
D 其 他 端口 一 一 一 4 
互联 网 地 址 =138.37.94.248 互联 网 地 址 =138.37.88.249 
图 4-2 ” 套 接 字 和 端口 


用 于 互联 网 地 址 的 Java API 因为 UDP Al TCP 底层 的 人 数据 包 被 发 送 到 互联 网 地 址 ， 所 以 Java 
提供 了 一 个 类 InetAddress， 用 以 表示 互联 网 地 址 。 该 类 的 用 户 用 域名 服务 (DNS) 的 主机 名 表示 计算 
机 (参见 3.4.7 节 ) 。 例 如 ， 包 含 互联 网 地 址 的 InetAddress 实例 通过 调用 InetAddress 的 静态 方法 (以 
DNS 主机 名 作为 参数 ) 创建 。 该 方法 使 用 DNS 获得 相应 的 互联 网 地 址 。 例 如 ， 对 于 DNS 名 为 
bruno. des. qmul ac. uk 的 主机 ， 为 了 得 到 表示 其 互联 网 地 址 的 对 象 ， 使 用 下 列 语句 

InetAddress aComputer = InetAddress. getByName( " bruno. des. qmul. ac. uk" ) ; 

该 方法 会 抛 出 UnknownHostException 异常 。 注 意 ， 类 的 用 户 不 需要 给 出 显 式 的 互联 网 地 址 值 。 事 
实 上 ，InetAddress 类 封装 了 互联 网 地 址 表示 的 细节 。 这 样 ， 该 类 的 接口 与 表示 互联 网 地 址 的 字 节 数 无 
关 一 一 在 IPv4 中 是 4 字 节 ， 在 IPv6 中 是 16 字 节 。 


4.2.3 UDP 数据 报 通信 


由 UDP 发 送 的 数据 报 从 发 送 进程 传输 到 接收 进程 ， 它 不 需要 确认 或 重 发 。 如 果 发 生 故 障 ， 消 息 可 
能 无 法 到 达 目 的 地 。 当 一 个 进程 发 送 〈send) 数据 报 ， 另 一 个 进程 接收 (receive) 该 数据 报时 ， 数 据 
报 就 会 在 进程 之 间 传 送 。 要 发 送 或 接收 消息 ， 进 程 必须 首先 创建 与 一 个 本 地 主机 的 互联 网 地 址 和 本 地 
端口 绑 定 的 套 接 字 。 服 务 器 将 把 它 的 套 接 字 绑 定 到 一 个 服务 器 端口 〈server port) ， 该 端口 应 让 客户 知 
道 ， 以 便 客户 给 该 端口 发 送 消息 。 客 户 将 它 的 套 接 字 绑 定 到 任何 一 个 空闲 的 本 地 端口 。Receive TER 
了 获得 消息 外 ， 还 获得 发 送 方 的 互联 网 地 址 和 端口 ， 这 些 信息 允许 接收 方 发 送 应 答 。 

下 面 讨论 与 数据 报 通 信 有 关 的 一 些 问 题 : 

消息 大 小 (message size); 接收 进程 要 指定 固定 大 小 的 用 于 接收 消息 的 字 节 数 组 。 如 果 消 息 大 于 
数组 大 小 ， 那 么 消息 在 到 达 时 会 被 截断 。 底 层 的 P 协议 允许 数据 包 的 长 度 最 大 为 216 字 节 ， 其 中 包括 


85 


86 


[150] 


第 4 章 进程 间 通 信 


消息 头 和 消息 本 身 。 然 而 ， 在 大 多 数 环境 下 ， 消 息 的 大 小 被 限制 为 8KB 左右 。 如 果 应 用 程序 有 大 于 最 
大 值 的 消息 ， 那 么 必须 将 该 消息 分 割 成 若干 段 。 通 常 ， 由 应 用 (如 DNS) 决定 消息 大 小 一 一 不 需要 选 
用 很 大 的 值 仅 只 要 适用 即 可 。 

PÆ (blocking): 套 接 字 通 常 提供 非 阻塞 型 的 send 操作 和 阻塞 型 的 receive 操作 以 进行 数据 报 通 信 
(在 某 些 实现 中 也 会 使 用 非 阻 塞 型 receive 操作 ) 。 当 send 操作 将 消息 传递 给 底层 的 UDP 和 IP HGR 
返回 ，UDP 和 IP 协议 负责 将 消息 传递 到 目的 地 。 消 息 到 达 时 被 放 在 与 目的 端口 绑 定 的 套 接 字 队 列 中 。 
通过 该 套 接 字 上 的 下 一 个 receive 调用 ， 就 可 以 从 队列 中 获取 该 消息 。 如 果 没 有 一 个 进程 具有 绑 定 到 目 
的 端口 的 套 接 字 ， 那 么 消息 就 会 在 目的 地 被 丢弃 。 

除非 在 套 接 字 上 设置 了 超时 ， 和 否则 receive 方法 将 一 直 阻 塞 直到 接收 到 一 个 数据 报 为 止 。 如 果 调 用 
receive 方法 的 进程 在 等 待 消息 时 还 有 其 他 工作 要 做 ， 那 么 应 该 安排 它 单独 使 用 一 个 线程 ， 有 关 线 程 的 
讨论 请 参见 第 7 章 。 例 如 ， 当 服务 器 从 客户 端 接 收 到 一 个 消息 时 ， 消 息 会 指定 要 做 的 工作 ， 这 时 ， 服 
务 器 将 使 用 单独 的 线程 完成 工作 和 等 待 其 他 客户 发 送 的 消息 。 

超时 (timeout): 一 直 阻 塞 的 receive 适用 于 正在 等 待 接收 客户 请 求 的 服务 器 。 但 在 有 些 程 序 中 ， 
发 送 进程 可 能 骨 省 或 期 待 的 消息 已 经 丢失 WH receive 操作 的 进程 不 适合 无 限制 地 等 待 下 去 。 为 了 解 
决 这 样 的 问题 ， 要 在 套 接 字 上 设 轩 超时 。 选 择 适 当 的 超时 间隔 不 太 容 易 ， 但 与 传输 消息 所 要 求 的 时 间 
相 比 ， 它 应 该 更 长 一 些 。 

任意 接收 (receive from any); receive 方法 不 指定 消息 的 来 源 ， 而 调用 receive 可 以 获得 从 任何 来 源 
发 到 它 的 套 接 字 上 的 消息 。receive 方法 返回 发 送 方 的 互联 网 地 址 和 本 地 端口 ， 允 许 接 收 方 检查 消息 的 
来 源 。 可 以 将 数据 报 套 接 字 连接 到 某 个 远程 端口 和 互联 网 地 址 ， 这 时 ， 套 接 字 只 从 那个 地 址 接收 消息 ， 
并 向 该 地 址 发 送 消息 。 

UDP 数据 报 故障 模型 ”第 2 章 给 出 了 通信 通道 的 故障 模型 ， 并 从 完整 性 和 有 效 性 的 角度 定义 了 可 
靠 通信 。 完 整 性 要 求 消息 不 能 损坏 或 重复 ， 利 用 校 验 和 可 以 保证 接收 到 的 消息 几乎 不 会 损坏 。UDP 数 
据 报 存在 下 列 故 障 : 

遗漏 故障 (omission failures); 消息 偶尔 会 丢失 ， 这 可 能 是 因为 校 验 和 错误 或 者 在 发 送 端 或 目的 端 
没有 可 用 的 缓冲 区 空间 造成 的 。 为 简化 讨论 ， 我 们 把 发 送 壹 漏 故障 和 接收 遗漏 故障 ( 见 图 2-15) 视 为 
通信 通道 中 的 遗漏 故障 。 

排序 (ordering): 消息 有 时 没有 按 发 送 方 顺序 发 送 。 

为 了 获得 所 要 求 的 可 靠 通信 的 质量 ， 使 用 UDP 数据 报 的 应 用 要 自己 提供 检查 手段 。 可 以 利用 确认 
将 一 个 有 遗漏 故障 的 服务 构造 为 可 靠 传送 服务 。5. 2 节 将 讨论 如 何在 UDP 上 构造 可 靠 的 用 于 客户 - 服 
务 器 通信 的 请 求 - 应 答 协 议 。 

UDP 的 使 用 ”对 某 些 应 用 而 言 ， 使 用 偶尔 有 遗漏 故障 的 服务 是 可 接受 的 。 例 如 ， 域 名 服务 (负责 
查找 在 互联 网 上 的 DNS 名) 就 是 在 UDP 上 实现 的 。VOIP (Voice Over IP) 也 运行 在 UDP 上 。 有 时 
UDP 数据 报 是 一 个 很 有 吸引 力 的 选择 ， 因 为 它们 没有 与 保证 消息 传递 相关 的 开销 。 开 销 主要 源 自 以 下 
三 个 方面 ; 

1) 需要 在 源 和 目的 地 存储 状态 信息 。 

2) 传输 额外 的 消息 。 

3) 发 送 方 的 延迟 。 

产生 这 些 开 销 的 原因 请 参见 4. 2.4 节 的 讨论 。 

UDP 数据 报 的 Java API Java API 通过 DatagramPacket 和 DatagramSocket 这 两 个 类 提供 数据 报 
通信 。 

DatagramPacket， 该 类 提供 构造 函数 ， 用 一 个 包含 消息 的 字 节 数组 、 消 息 长 度 和 目的 地 套 接 字 的 互 
联网 地 址 和 本 地 端口 号 生成 一 个 实例 ， 如 下 所 示 : 

数据 报 的 数据 包 


| 包含 消息 的 字 节 数 组 。 |  MBKE | ”互联 网 地 址 。 | 端口 号 
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DatagramPacket 实例 可 以 在 进程 之 间 传 送 ， 此 时 其 中 一 个 进程 发 送 ， 另 一 个 进程 接收 。 

该 类 还 提供 了 另 一 个 在 接收 消息 时 使 用 的 构造 函数 ， 它 的 参数 是 一 个 用 于 接收 消息 的 字 节 数组 和 
数组 长 度 。DatagramPacket 存放 接收 到 的 消息 、 消 息 长 度 以 及 发 送 套 接 字 的 互联 网 地 址 和 端口 。Data- 
gramPacket 通过 getData 方法 检索 消息 。getPort 和 getAddress 方法 访问 端口 和 互联 网 地 址 。 

DatagramSocket; 该 类 支持 套 接 字 发 送 和 接收 UDP RHR. CHET Ss ABR HY 
数 ， 用 于 需要 使 用 特定 端口 的 进程 。 它 也 提供 一 个 无 参数 的 构造 函数 ， 以 便 系统 选择 一 个 空闲 的 本 地 
端口 。 如 果 端 口 已 经 被 使 用 或 在 UNIX 下 指定 了 一 个 保留 端口 (小 于 1024 的 数字 ) ， 那 么 这 些 构造 函 
数 会 地 出 SocketException 异常 。 

类 DatagramSocket 提供 以 下 方法 : 

e send 和 receive: 这 些 方 法 用 于 在 一 对 套 接 字 之 间 传 送 数据 报 。send 的 参数 是 包含 消息 和 它 目 的 
地 的 DatagramPacket i], receive 的 参数 是 一 个 空 的 DatagramPacket， 用 于 存放 消息 、 消 息 的 
长 度 和 来 源 。send 和 receive 方法 会 抛 出 IOExceptions 异常 。 

e setSoTimeout: 该 方法 用 于 设置 超时 。 设 置 超时 后 ，receive 方法 将 在 指定 的 时 间 内 阻塞 ， 然 后 
抛 出 一 个 InterruptedIOException 异常 。 

© connect; 该 方法 用 于 连接 到 某 个 互联 网 地 址 和 远程 端口 ， 这 时 套 接 字 仅 能 从 该 地 址 接收 消息 并 
向 该 地 址 发 送 消息 。 

在 图 4-3 所 示 的 客户 程序 中 ， 客 户 先 创建 一 个 套 接 字 ， 然 后 给 位 于 端口 6789 的 服务 器 发 送 消 息 ， 
并 等 待 接 收 应 答 。main 方法 的 参数 是 消息 和 服务 器 的 DNS 主机 名 。 消 息 被 转换 为 一 个 字 节 数组 ，DNS 
主机 名 被 转换 为 一 个 互联 网 地 址 。 图 4-4 还 给 出 了 相应 的 服务 器 程序 ， 服 务 器 创建 绑 定 到 服务 器 端口 
6789 的 套 接 字 ， 然 后 一 直 等 待 接收 来 自 客户 的 请 求 消息 ， 然 后 发 回 同样 的 消息 作为 应 答 。 








import java.net.*; 
import java.io.*; 
public class UDPClient{ 
public static void main(String args[]){ 
// args give message contents and server hostname 
DatagramSocket aSacket = null; 
try { 
aSocket = new DatagramSocket(); 
byte [] m = args[0].getBytes(); 
InetAddress aHost = InetAddress.getByName/(args[1]); 
int serverPort = 6789; 
DatagramPacket request = 
new DatagramPacket(m, args[0].length(), aHost, serverPort); 
aSocket.send{request); 
byte{] buffer = new byte[1000]; 
DatagramPacket reply = new DatagramPacket(buffer, buffer. length); 
aSocket.receive(reply); 





System. out. printiIn( "Reply: " + new String(reply.getData())); 
jcatch (SocketException e){System.out.printIn("Socket: " + e.getMessage()); 
jeatch (IOException e) {System. out printin( "IO: " + e.getMessage()); 
Hinally {if(aSocket != null) aSocket.close();} 








图 4-3 UDP 客户 发 送 一 个 消息 到 服务 器 并 获得 一 个 应 答 
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import java.net.*; 
import java.io.*; 
public class UDPServer{ 
public static void main(String args[}) { 
DatagramSocket aSocket = null; 
try{ 
aSocket = new DatagramSocket(6789); 
byte[] buffer = new byte[1000]; 
while(true) { 
DatagramPacket request = new DatagramPacket(buffer, buffer.length); 
aSocket,receive(request); 
DatagramPacket reply = new DatagramPacket(request.getData(), 
request.getLength(), request. getAddress(), request.getPort()); 
aSocket.send{reply); 





catch (SocketException e) {System. out printin( "Socket: " + e.getMessage()); 
ècatch (IOException e) {System.out.printIn( "IO: " + e.getMessage()); 
finally {iftaSocket != null) aSocket.close();} 
} 
3 








图 4-4 UDP 服务 器 不 断 接 收 请 求 并 将 它 发 回 给 客户 


4.2.4 TCP 流通 信 


TCP 协议 的 API 源 于 BSD 4.x UNIX， 它 提供 了 可 读 写 的 字 节 流 。 流 抽象 可 隐藏 网 络 的 下 列 特征 : 

消息 大 小 (message size): 应 用 能 选择 它 写 到 流 中 和 从 流 中 读 取 的 数据 量 。 它 可 处 理 非常 小 或 非 
常 大 的 数据 集 。TCP 流 的 底层 实现 决定 了 在 将 数据 作为 一 个 或 多 个 卫 数据 包 传 送 前 ， 要 搜集 多 少数 
据 。 数 据 到 达 后 按 需 求 传递 给 应 用 ， 如 果 有 必要 ， 应 用 可 以 强制 数据 马上 发 送 。 

丢失 的 消息 (lost message); TCP 协议 使 用 确认 方案 。 以 一 个 简单 的 方案 作为 例子 (注意 , 在 TCP 
中 没有 使 用 这 种 方案 ) ， 发 送 端 记 录 每 个 发 送 的 下 数据 包 ， 接 收 端 确 认 所 有 消息 的 到 达 。 如 果 在 一 个 
超时 时 间 段 内 ， 发 送 方 没有 接收 到 确认 信息 ， 则 发 送 方 重 传 该 消息 。 更 复杂 的 滑动 窗口 方案 [Comer 
2006] 减少 了 所 需 的 确认 消息 的 个 数 。 

流 控制 (flow control); TCP 协议 试图 匹配 读 写 流 的 进程 的 速度 。 如 果 对 读 取 流 的 进程 来 说 写 人 流 
的 进程 太 快 ， 那 么 它 会 被 阻塞 直到 读 取 流 的 进程 消化 掉 足 够 的 数据 为 止 。 

消息 重复 和 排序 (message duplication and ordering); EA P 数据 包 与 消息 标识 符 相 关联 ， 这 使 得 
接收 方 能 检测 和 丢弃 重复 的 消息 ， 或 重 排 没有 以 发 送 方 顺序 到 达 的 消息 。 

消息 目的 地 (message destination) :一 对 通信 进程 能 在 流 上 通信 之 前 要 先 建 立 连 接 。 一 旦 建立 了 连 
接 ， 进 程 不 需要 使 用 互联 网 地 址 和 端口 即 可 读 、 写 流 。 在 通信 发 生前 ， 建 立 连 接 涉 及 客户 给 服务 器 发 
送 一 个 connect 请 求 ， 然 后 服务 器 向 客户 发 送 一 个 accept 请 求 。 对 单个 客户 -服务 器 请 求 和 应 答 而 言 ， 
这 是 相当 大 的 开销 。 

流通 信 的 API 假设 ， 当 一 对 进程 在 建立 连接 时 ， 其 中 一 个 进程 作为 客户 ， 另 一 个 进程 作为 服务 器 ， 但 
之 后 它们 又 是 平等 的 。 客 户 角 色 涉 及 创建 绑 定 到 端口 的 流 套 接 字 ， 然 后 ， 发 出 connect 请 求 ， 在 服务 器 的 端 
口上 请 求 与 服务 器 连接 。 服 务 器 角色 涉及 创建 绊 定 到 服务 器 端口 的 监听 套 接 字 ， 然 后 等 待 客户 请 求 连接 。 监 
听 套 接 字 维 护 到 达 的 连接 请 求 队列 。 在 套 接 字模 型 中 ， 当 服务 器 accept (接受 ) 一 个 连接 ， 就 创建 一 个 新 的 
流 套 接 字 用 于 与 客户 的 通信 ， 同 时 保持 在 服务 器 端口 上 的 套 接 字 用 于 监听 其 他 客户 的 connect 请 求 。 

客户 和 服务 器 的 套 接 字 对 由 一 对 流 相 连接 ， 每 个 方向 一 个 流 。 这 样 ， 每 个 套 接 字 有 一 个 输入 流 和 
一 个 输出 流 。 进 程 对 中 的 任何 一 个 进程 都 可 以 通过 将 信息 写 人 它 的 输出 流 来 发 送信 息 给 另 一 个 进程 ， 
而 另 一 个 进程 通过 读 取 它 的 输入 流 来 获得 信息 。 

当 一 个 应 用 close 一 个 套 接 字 时 ， 表 示 它 不 再 写 任何 数据 到 它 的 输出 流 。 输 出 缓冲 区 中 的 任何 数据 
被 送 到 流 的 另 一 端 ， 放 在 目的 地 套 接 字 的 队列 中 ， 并 指明 流 已 断 开 了 。 目 的 地 进程 能 读 取 队 列 中 的 数 
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据 ， 但 在 队列 为 空 之 后 进行 任何 读 操作 都 会 返回 流 结束 的 标志 。 当 进程 退出 或 失败 时 ， 它 的 所 有 套 接 
字 最 终 被 关闭 ， 任 何 试图 与 它 通信 的 进程 将 发 现 连接 已 中 断 。 

下 面 说 明 一 些 与 流通 信 相 关 的 重要 问题 。 

数据 项 的 匹配 (matching of dataitem) : 两 个 通信 进程 需要 对 在 流 上 传送 的 数据 的 内 容 达 成 一 致 。 
例如 ， 如 果 一 个 进程 在 流 中 先 写 和 一 个 整 型 数据 ， 后 面 跟 一 个 双 精 度 型 数据 ， 那 么 另 一 端的 进程 必须 
先 读 取 整 型 数据 ， 后 读 取 双 精度 型 数据 。 当 一 对 进程 不 能 在 流 的 使 用 上 正确 协作 时 ， 读 进程 在 解释 数 
据 时 可 能 会 出 错 ， 或 者 可 能 由 于 流 中 数据 不 足 而 产生 阻塞 。 

faz (blocking): 写 人 流 的 数据 保存 在 目的 地 套 接 字 的 队列 中 。 当 进程 试图 从 输入 通道 读 取 数 据 
时 ， 它 将 直接 从 队列 中 获得 数据 或 一 直 阻 塞 直 到 队列 中 有 可 用 的 数据 为 止 。 如 果 在 另 一 端的 套 接 字 队 
列 中 的 数据 与 协议 允许 的 数据 一 样 多 ， 那么 将 数据 写 入 流 的 进程 可 能 被 TCP 流 控制 机 制 阻 塞 。 

RAZ (thread): 当 服 务 器 接受 连接 时 ， 它 道 常 创建 一 个 新 线程 用 于 与 新 客户 通信 。 为 每 个 客户 使 用 单 
独 的 线程 的 好 处 是 服务 器 在 等 待 输入 时 能 阻塞 而 不 会 延误 其 他 客户 。 在 不 提供 线程 的 环境 中 ， 另 一 种 方法 是 
在 试图 读 取 数据 前 测试 来 自流 的 输入 是 否 可 用 。 例 如 ， 在 UNIX 环境 中 ，select 系统 调用 便 是 用 于 该 目的 。 

故障 模型 ”为 了 满足 可 靠 通信 的 完整 性 ，TCP 流 使 用 校 验 和 检查 并 丢弃 损坏 的 数据 包 ， 使 用 序列 
号 检测 和 丢弃 重复 的 数据 包 。 为 保证 有 效 性 ，TCP 流 使 用 超时 和 重 传 来 处 理 丢 失 的 数据 包 。 因 此 ， 即 
使 底层 有 些 数 据 包 丢 失 ， 还 是 可 以 保证 消息 的 传输 。 

但 是 ， 如 果 连 接 上 的 数据 包 竺 失 超 过 了 限制 以 及 连接 一 对 通信 进程 的 网 络 不 稳定 或 严重 拥塞 ， 那 
么 负责 发 送 消息 的 TCP 软件 将 收 不 到 确认 ， 这 种 情况 持续 一 段 时 间 之 后 ，TCP 就 会 声明 该 连接 已 中 断 。 
这 时 TCP 不 能 提供 可 靠 通信 ， 因 为 它 不 能 在 面临 各 种 可 能 的 困难 时 保证 消息 的 传输 。 

当 连 接 中 断后 ， 使 用 它 的 进程 如 果 还 试图 进行 读 或 写 操作 ， 就 会 接 到 有 关 的 通知 。 这 会 造成 下 列 后 果 : 

。 使 用 连接 的 进程 不 能 区 分 是 网 络 故障 还 是 连接 男 一 端的 进程 故障 。 

。 通信 进程 不 能 区 分 最 近 它 们 发 送 的 消息 是 否 已 被 接收 。 

TCP 的 使 用 许多 经 常 使 用 的 服务 在 TCP 连接 上 运行 ， 使 用 保留 的 端口 号 。 这 些 服务 包括 : 

e HTTP; 超 文本 传送 协议 用 于 Web 浏览 器 和 Web 服务 器 之 间 的 通信 。 这 部 分 内 容 见 5.2 节 的 讨论 。 

© FIP: 文件 传输 协议 允许 浏览 远程 计算 机 上 的 目录 ， 以 及 通过 连接 将 文件 从 一 台 计 算 机 传输 到 

另 一 台 计 算 机 。 

© telnet: telnet 利用 终端 会 话 访问 远程 计算 机 。 

© SMTP; 简单 邮件 传输 协议 用 于 在 计算 机 之 间 发 送 邮 件 。 

TCP 流 的 Java API TCP 流 的 Java 接口 由 类 ServerSocket Al Socket 给 出 。 

ServerSocket; 服务 器 使 用 该 类 在 服务 器 端口 上 创建 一 个 套 接 字 ， 以 便 监 听 客 户 的 connect 请 求 。 它 
的 accept 方法 从 队列 中 获得 一 个 connect 请 求 ， 如 果 队 列 为 空 ， 它 就 会 阻塞 ， 直 到 有 消息 到 达 队 列 为 
止 。 执 行 accept 的 结果 是 一 个 Socke 实例 一 该 套 接 字 可 用 于 访问 与 客户 通信 的 流 。 

Socket: 该 类 可 供 连 接 的 一 对 进程 使 用 。 客 户 使 用 构造 函数 〈 需 指定 服务 器 的 DNS 主机 名 和 端口 ) 创 
建 套 接 字 。 该 构造 函数 不 仅 创建 与 本 地 端口 相关 的 套 接 字 ， 而 且 将 套 接 字 连 接 到 指定 的 远程 计算 机 和 端口 
号 。 如 果 主 机 名 错误 ， 它 会 抛 出 UnknownHostException 异常 ， 如 果 发 生 NO 错误 ， 它 会 抛 出 IOException 异常 。 

Socket 类 提供 了 getInputStream 和 getOutputStream 方法 用 于 访问 与 套 接 字 相关 的 两 个 流 。 这 些 方 法 
的 返回 类 型 分 别 是 InputStream 和 OutputSteam， 即 定义 了 读 、 写 字 节 的 方法 的 抽象 类 。 返 回 值 可 作为 
合适 的 输入 流 和 输出 流 的 构造 函数 的 参数 。 我 们 的 例子 使 用 DatalnputStream 和 DataOutputStream， 它 们 
允许 简单 数据 类 型 的 二 进 制 表示 能 够 以 与 机 器 无 关 的 方式 读 和 写 。 

图 4-5 给 出 了 一 个 客户 程序 ， 其 中 main 方法 的 参数 据 供 了 一 个 消息 和 服务 器 的 DNS 主机 和 名。 客户 
创建 了 一 个 绑 定 到 主机 名 和 服务 器 端口 7896 的 套 接 字 。 它 从 套 接 字 的 输入 流 和 输出 流 生 成 Datalnput- 
Stream 和 Data0utputStream， 然 后 将 消息 写 人 它 的 输出 流 ， 并 等 待 从 它 的 输入 流 中 读 取 应 答 。 图 4-6 中 
的 服务 器 程序 打开 其 服务 器 端口 (7896) 的 服务 器 套 接 字 ， 监 听 connect 请 求 。 当 有 请 求 到 达 时 ， 就 生 
成 新 线程 用 于 与 客户 通信 。 新 线程 从 它 套 接 字 的 输入 流 和 输出 流 中 创建 DataInputStream 和 DataOutput- 
Stream， 然 后 等 待 读 取消 息 并 将 其 写 回 。 
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import java.net.*; 
import java.io. *; 
public class TCPClient { 
public static void main (String args[]) { 
/! arguments supply message and hostname of destination 
Socket s = null; 
try{ 
int serverPort = 7896; 
s = new Socket(args[1], serverPort); 
DatalnputStream in = new DatalnputStream( s.getInputStream()); 
DataOutputStream out = 
new DataOQutputStream( s.getOutputStream()); 
out.writeUTF (args[0]); i! UTF is a string encoding see Sn 4.3 
String data = in.readUTF(); 
System.out.printIn( "Received: "+ data) ; 
jcatch (UnknownHostException e){ 
System.out.printin( "Sock:" +e. getMessage()); 
}eatch (EOF Exception e) {System.out printn("EOF."+e. getMessage()); 
}catch (IOException e) System. out printin("IO:"+e. getMessage()); 
finally {if(s!=null) try {s.closeQ);} catch (IOException e) {/*close failed*/}} 





图 4-5 TCP 客户 与 服务 器 建立 连接 ， 发 送 请 求 并 接收 应 答 








import java.net.*; 
import java.io. *; 
public class TCPServer { 
public static void main (String args[]) { 
try{ 
int serverPort = 7896; 
ServerSocket listenSocket = new ServerSocket(serverP ort); 
while(true) { 
Socket clientSacket = listenSocket.accept(); 
Connection c = new Connection(clientSocket); 
2 
j catch(IOException e) {System.out.printin( "Listen :" +e. getMessage());} 
i 
} 
class Connection extends Thread { 
DatalnputStream in; 
DataOutputStream out; 
Socket clientSocket; 
public Connection (Socket aClientSocket) { 
try { 
clientSocket = aClientSocket; 
in = new DatalnputStream( clientSocket.getinputStream()); 
out =new DataOutputStream( clientSocket.getOutputStream()); . 
this.startQ); 
} catch(IOException e) {System.out.printin( "Connection:" +e.getMessage());} 


} 
public void run(){ 
try { fi an echo server 
String data = in.readUTF(); 
out.writeUTF (data); 
} eatch(EOFException e) {System.out printin( "EOF:"+e.getMessage()); 
} catch(IOException e) {System.out.printin( "IO." +e, getMessage()); 
} finally{ try {clientSocket.close();}catch (IOException e){/*close failed*/}} 











图 4-6 TCP 服务 器 为 每 个 客户 建立 连接 ， 然 后 回应 客户 的 请 求 
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因为 消息 由 串 组 成 ， 客 户 进程 和 服务 器 进程 使 用 DataOutputStream 的 writeUTF 方法 将 消息 写 人 输出 
流 ， 使 用 DataInputStream 的 readUTF 方法 从 输入 流 中 读 取 消息 。UTF-8 是 表示 串 的 特定 格式 编码 ， 参 
见 4.3 节 的 描述 。 

当 一 个 进程 关闭 它 的 套 接 字 后 ， 它 将 不 再 能 够 使 用 它 的 输入 流 和 输出 流 。 数 据 的 目的 进程 能 从 它 
的 队列 中 读 取 数 据 ， 但 在 队列 为 空 后 进行 读 操作 会 产生 EOFException 异常 。 试 图 使 用 一 个 关闭 的 套 接 
字 或 向 一 个 中 断 的 流 中 写 信息 都 会 产生 IOException 异常 。 


4.3 外 部 数据 表示 和 编码 


存储 在 运行 的 程序 中 的 信息 都 表示 成 数据 结构 ， 如 相互 关联 的 对 象 集合 ， 而 消息 中 的 信息 由 字 节 
序列 组 成 。 不 论 使 用 何 种 通信 形式 ， 数 据 结 构 在 传输 前 必须 “ 打 平 ”( 转 换 成 字 节 序列 ) ， 到 达 目 的 地 
后 重 构 。 在 消息 中 传送 的 单个 简单 数据 项 可 以 是 不 同类 型 的 数据 值 ， 不 是 所 有 的 计算 机 都 以 同样 的 顺 
序 存储 整数 这 样 的 简单 值 。 浮 点 数 的 表示 也 随 体 系 结构 的 不 同 而 不 同 。 表 示 整 数 的 顺序 有 两 种 方法 : 
所 谓 的 大 序 法 〈big-endian) 排序 ， 即 最 高 有 效 字 节 排 在 前 面 ; Æ (little-endian) 排序 ， 即 最 高 有 
效 字 节 排 在 后 面 。 另 一 个 问题 是 用 于 表示 字符 的 代码 集 ， 例 如 ， 系 统 (如 UNIX) 上 的 大 多 数 应 用 使 
F ASCI 字符 编码 ， 每 个 字符 占 1 字 节 ， 但 是 Unicode 标准 可 以 表示 许多 不 同 语言 的 文字 ， 每 个 字符 占 
2 字 节 。 

下 列 方法 可 用 于 使 两 台 计算 机 交换 数据 值 : 

© 值 在 传送 前 先 转换 成 一 致 的 外 部 格式 ， 然 后 在 接收 端 转换 成 本 地 格式 。 如 果 两 台 计 算 机 是 同一 

类 型 ， 可 以 不 必 转 换 成 外 部 格式 。 
© 值 按照 发 送 端的 格式 传送 ， 同 时 传送 所 使 用 格式 的 标志 ， 如 果 需 要， 接收 方 会 转换 该 值 。 
注意 ， 字 节 本 身 在 传送 过 程 中 不 改变 。 为 了 支持 RMI 或 RPC， 任 何 能 作为 参数 传递 或 作为 结果 返 
回 的 数据 类 型 必须 被 “ 打 平 ”， 单 个 的 简单 数据 值 以 一 致 的 格式 表示 。 表 示 数 据 结构 和 简单 值 的 一 臻 
的 标准 称 为 外 部 数据 表示 (external data representation) 。 
编码 (marshalling) 是 将 多 个 数据 项 组 装 成 适合 消息 传送 的 格式 的 过 程 。 解 码 (unmarshalling) 是 
在 消息 到 达 后 分 解 消 息 ， 在 目的 地 生成 相等 的 数据 项 的 过 程 。 因 此 ， 编 码 是 将 结构 化 数据 项 和 简单 值 
翻译 成 外 部 数据 表示 。 类 似 地 ， 解 码 是 从 外 部 数据 表示 生成 简单 值 ， 并 重建 数据 结构 。 
我 们 将 讨论 三 种 外 部 数据 表示 和 编码 的 方法 (第 21 章 将 讨论 第 四 种 方法 ， 以 谷歌 的 数据 结构 表示 
方法 为 例 ) : 
© CORBA 的 公共 数据 表示 ， 它 涉及 在 CORBA 的 远程 方法 调用 中 能 作为 参数 和 结果 传送 的 结构 化 
类 型 和 简单 类 型 的 外 部 表示 。 它 可 用 于 多 种 编程 语言 (参见 第 8 章 ) 。 

© Java 的 对 象 序 列 化 ， 它 涉及 需要 在 消息 中 传送 或 存储 到 磁盘 上 的 单个 对 象 或 对 象 树 的 “ 打 平 ” 
和 外 部 数据 表示 。 它 仅 用 于 Java. 

。 XML (可 扩展 标记 语言 )， 它 定义 了 表示 结构 化 数据 的 文本 格式 。 它 原本 用 于 包含 文本 自 描述 
型 的 结构 化 数据 的 文档 ， 例 如 可 从 Web 访问 的 文档 。 但 它 现在 也 用 于 在 Web 服务 中 被 客户 和 
服务 器 交换 的 消息 中 的 数据 (参见 第 9 章 )。 

在 前 两 种 情况 下 ， 编 码 和 解码 活动 均 由 中 间 件 层 完 成 ， 不 涉及 任何 一 方 的 应 用 程序 员 。 即 使 在 
XML 的 情况 下 (XML 是 文本 的 ， 因 此 更 容易 处 理 编码 ) ， 编 码 和 解码 软件 也 对 所 有 平台 和 编程 环境 可 
用 。 因 为 编码 要 求 考 虑 组 成 组 合 对 象 的 简单 组 件 的 表示 细节 ， 所 以 如 果 手 工 完 成 该 过 程 ， 那么 整个 过 
程 很 容易 出 错 。 简 洛 性 是 设计 自动 生成 型 编码 程序 要 考虑 的 另 一 个 问题 。 

在 前 两 个 方法 中 ， 简 单数 据 类 型 被 编码 成 二 进 制 形式 。 在 第 三 个 方法 (XML) 中 ， 简 单数 据 类 型 
表示 成 文本 。 通 常 ， 数 据 值 的 文本 表示 将 比 等 价 的 二 进 制 表示 更 长 。 第 $ 章 描述 的 HITP 协议 是 文本 
方法 的 另 一 个 例子 。 

与 编码 方法 设计 有 关 的 另 一 个 问题 是 被 编码 数据 是 否 应 该 包括 与 其 内 容 的 类 型 有 关 的 信息 。 例 如 ， 
CORBA 的 表示 只 包括 所 传送 的 对 象 的 值 ， 不 包含 它们 的 类 型 。 另 一 方面 ，Java 序列 化 和 XML 都 包括 
了 类 型 信息 ， 但 表示 方式 不 同 。Java 把 所 有 需要 的 类 型 信息 放 到 序列 化 后 的 格式 中 。 但 XML 文档 可 以 
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指向 名 字 (和 类 型 ) 的 外 部 定义 集合 ， 即 名 字 空 间 (namespace) 。 

虽然 我 们 对 RMI, RPC 的 参数 和 结果 的 外 部 数据 表示 感 兴趣 ， 但 将 数据 结构 、 对 象 或 结构 化 文档 
转换 成 适合 消息 传送 或 文件 存储 的 格式 更 为 常用 。 

另外 两 种 外 部 数据 表示 方法 值得 我 们 注意 。 谷 歌 采 用 协议 色 冲 区 (protocol buffer) 方法 来 捕获 所 
传送 和 存储 的 数据 的 表示 ， 我 们 将 在 20.4. 1 节 讨 论 此 方法 。 用 JSON (JavaScript Object Notation) 作为 
外 部 数据 的 表示 方法 也 很 有 趣 ， 可 参见 [ www. json org] 。 这 两 种 方法 代表 了 用 更 加 轻 量 级 的 方法 来 进 
行 数据 表示 的 发 展 方向 〈 当 与 诸如 XML 比较 时 ) 。 


4.3.1 CORBA 的 公共 数据 表示 


CORBA 的 公共 数据 表示 (Common Data Representation, CDR) 是 CORBA 2.0 [ OMG 2004a] 定义 
的 外 部 数据 表示 。CDR 能 表示 所 有 在 CORBA 远程 调用 中 用 作 参 数 和 返回 值 的 数据 类 型 。 其 中 有 15 个 
简单 类 型 ， 包括 short (16 比特 )、long (32 比特 ) unsigned short, unsigned long, float (32 比特 )、 
double (64 比特 ) char, boolean (TRUE, FALSE) octet (8 比特 ) 和 any ( 它 可 表示 任何 基本 类 型 或 
构造 类 型 ) ， 此 外 还 有 一 套 复 合 类 型 ， 参 见 图 4-7。 远 程 调用 中 每 个 参数 或 结果 表示 成 调用 消息 或 结果 
消息 中 的 字 节 序列 。 














| 类 a # 示 
sequence 长 度 〈 无 符号 长 整 型 ) ， 后 面 依次 是 元 素 ] 
string 长 度 〈 无 符 叶 长 整 型 ) ， 后 面 依次 是 字符 (可 以 有 宽 字 符 ) 
array 依次 是 数组 元 素 (不 用 指定 长 度 ， 因 为 它 是 固定 的 ) 
struct 按 组 成 部 分 声明 的 顺序 表示 
ae 无 符号 长 整 型 〈 值 按照 声明 的 顺序 指定 ) 
union 类 型 标签 ， 后 面 是 所 选中 的 成 员 


图 4-7 结构 化 类 型 的 CORBA CDR 


简单 类 型 (Primitive) : CDR 定义 了 大 序 法 排序 和 小 序 法 排序 的 表示 。 值 按 发送 端 消息 中 指定 的 顺 
序 传送 ,接收 端 如 果 要 求 不 同 的 顺序 就 要 进行 翻译 。 例 如 ，16 比特 short 类 型 数据 在 消息 中 占 两 个 字 
节 ， 若 用 大 序 法 排序 ， 最 高 有 效 位 占 第 一 个 字 节 ， 最 低 有 效 位 占 第 二 个 字 节 。 每 个 简单 类 型 值 根据 它 
的 大 小 顺序 放 在 字 节 序列 中 。 假 设 字 节 序列 的 下 标 最 小 为 零 ， 那 么 nn 字 节 大 小 (其 中 n=1, 2, 4, 8) 
的 简单 类 型 值 将 附加 到 字 节 流 序列 中 为 n 的 倍数 的 下 标 处 ， 浮 点 值 遵循 IEEE 标准 ， 其 中 符号 、 指 数 和 
小 数 部 分 按 大 序 法 依次 放 在 字 节 0 ~n 处 ; 按 小 序 法 排序 则 要 反 过 来 放 。 字 符 用 客户 和 服务 器 均 同意 的 
代码 集 表示 。 

结构 化 类 型 (Constructed types): 组 成 每 个 。 字 节 序列 中 的 下 标 。 ”一 4 字 节 一 > 注释 



































结构 化 类 型 的 简单 类 型 值 按 特定 的 顺序 《如 [0 3 Ts BETTI 
图 4-7 所 示 ) 加 到 字 节 序列 中 。 i -7 | "Smit" ‘Smith’ 

图 4-8 给 出 了 CORBA CDR 表示 的 一 个 oy To 
struct 消息 ， 它 包含 三 个 域 ， 三 个 域 的 类 型 分 别 | = 中 的 长度 
是 string, string 和 unsigned long。 图 中 给 出 了 每 16219 "Lond" | ‘London’ 
HH AAP WEBEL. AHAB Ho mi - 
个 表示 长 度 的 unsigned long， 后 跟 串 中 的 字符 的 十 — ; 
形式 组 成 。 为 简单 起 见 ， 我 们 假设 每 个 字符 只 “| 242 | 0% Ee Tong 
占 1 个 字 节 。 变 长 数据 用 零 填充 ， 以 便 形成 标 该 打 平 的 格式 表示 一 个 值 为 {Smith',London',1984} 的 Person 结 构 。 
准 格 式 ， 从 而 比较 编码 数据 或 它 的 校 验 和 。 注 图 4-8 CORBA CDR 消息 


意 ， 每 个 unsigned long 占 4 个 字 节 ， 其 开始 位 
置 在 一 个 4 的 倍数 的 下 标 处 。 图 4-8 没有 区 分 大 序 法 排序 和 小 序 法 排序 。 虽 然 图 4-8 中 的 例子 比较 简 
单 ， 但 CORBA CDR 能 表示 任何 不 使 用 指针 的 、 由 简单 类 型 和 结构 化 类 型 组 成 的 数据 结构 。 
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外 部 数据 表示 的 另 一 个 例子 是 Sun XDR 标准 ， 该 标准 在 RFC 1832 中 指定 [Srinivasan 1995b] ， 其 
描述 见 www. cdk5. net/ipe, EHH Sun 公司 开发 ， 用 于 Sun NFS 中 客户 和 服务 器 之 间 的 消息 交换 (参见 
第 13 章 ) 。 

CORBA CDR 或 Sun XDR 标准 均 没 有 在 消息 的 数据 表示 中 给 出 数据 项 类 型 。 这 是 因为 它 假定 发 送 
方 和 接收 方 对 消息 中 数据 项 的 类 型 和 顺序 有 共识 。 特 别 是 对 RMI 或 RPC， 每 个 方法 调用 传递 特定 类 型 
的 参数 ， 而 结果 也 是 特定 类 型 的 值 。 

CORBA 中 的 编码 ”根据 在 消息 中 传送 的 数据 项 类 型 的 规约 ， 可 以 自动 生成 编码 操作 。 数 据 结构 
的 类 型 和 基本 数据 项 类 型 用 CORBA IDL 描述 ( 见 8.3.1 节 )，IDL 提供 了 描述 RMI 方法 的 参数 类 型 和 
结构 类 型 的 表示 法 。 例 如 ， 我 们 可 以 用 CORBA IDL 描述 图 4-8 中 消息 的 数据 结构 

struct Person{ 

String name; 
string place; 
unsigned long year; 

JA 
CORBA 接口 编译 器 〈 参 见 第 5 章 ) 根据 远程 方法 的 参数 类 型 和 结果 类 型 的 定义 为 参数 和 结果 生成 
适当 的 编码 和 解码 操作 。 


4.3.2 Java 对 象 序列 化 


在 Java RM 中 ， 对 象 和 简单 数据 值 都 可 以 作为 方法 调用 的 参数 和 结果 传递 。 一 个 对 象 是 一 个 Java 
类 的 实例 。 例 如 ， 与 CORBA IDL 中 定义 的 Person struct 作用 相当 的 Java 类 是 : 

public class Person implements Serializable { 

private String name; 

private String place; 

private int year; 

public Person (String aName, String aPlace, int aYear){ 
name=aName; 
place=aPlace; 
year=aYear; 

} 

followed by methods for accessing the instance variables 

} 

上 面 的 类 表明 它 实现 了 Serializable 接口 ， 该 接口 没有 方法 。 表 明 一 个 类 实现 了 Serializable 接口 
(该 接口 在 java. io 包 中 提供 ) 意味 着 它 的 实例 能 被 序列 化 。 

在 Java 中 ， 术 语序 列 化 (serialization) 指 的 是 将 一 个 对 象 或 一 组 有 关联 的 对 象 打 平 成 适合 于 磁盘 
存储 或 消息 传送 的 串 行 格式 ， 例 如 RMI 中 的 参数 或 结果 。 解 序列 化 是 指 从 串 行 格式 中 恢复 对 象 或 一 组 
对 象 的 状态 。 它 假设 进行 解 序列 化 的 进程 事先 不 知道 序列 化 格式 中 对 象 的 类 型 。 因 此 ， 要 将 关于 每 个 
对 象 类 的 一 些 信息 包含 在 序列 化 格式 中 。 这 些 信 息 使 得 接收 方 在 解 序列 化 对 象 时 能 装载 恰当 的 类 。 

类 的 信息 由 类 名 和 版 本 号 组 成 。 当 类 有 大 的 改动 时 要 修改 版 本 号 。 它 可 由 程序 员 设 置 或 自动 根据 
类 名 和 它 的 实例 变量 、 方 法 和 接口 的 名 字 的 散 列 值 计 算 ， 解 序列 化 对 象 的 进程 能 检查 它 的 类 版 本 是 否 
正确 。 

Java 对 象 可 以 包含 对 其 他 对 象 的 引用 。 当 对 象 序列 化 时 ， 它 引用 的 所 有 对 象 也 随 它 一 起 序列 化 ， 
以 确保 对 象 在 目的 地 重 构 时 它 引 用 的 对 象 也 能 恢复 。 引 用 被 序列 化 成 句柄 一 在 这 种 情况 下， 多 柄 
(handle) 是 在 序列 化 格式 内 对 一 个 对 象 的 引用 ， 倒 如 句柄 可 以 是 正 整 数 序列 中 的 下 一 个 数字 。 序 列 化 
过 程 必须 确保 对 象 引 用 和 句柄 之 间 是 一 一 对 应 的 。 它 也 必须 确保 每 个 对 象 只 能 写 一 次 一 一 在 对 象 第 二 
次 出 现 及 之 后 再 出 现时 ， 写 人 句柄 而 不 是 对 象 。 | 

为 了 序列 化 一 个 对 象 ， 要 写 出 它 的 类 信息 ， 随 后 是 实例 变量 的 类 型 和 和 名字; 如 果实 例 变 量 属于 新 
的 类 ， 那 么 要 写 出 它们 所 属 的 新 类 的 类 信息 ， 随 后 是 新 类 的 实例 变量 的 类 型 和 名 字 。 这 个 递归 过 程 一 


93 


94 


第 4 章 进程 间 通 信 


直 进 行 到 所 有 必须 的 类 的 类 信息 和 实例 变量 的 类 型 和 名 字 都 被 写 出 为 止 。 每 个 类 都 有 一 个 句柄 ， 没 有 
一 个 类 会 多 次 写 人 字 节 流 一 一 在 需要 的 地 方 会 写 人 句柄 。 

整 型 、 字 符 型 、 布 尔 、 字 节 和 长 整 型 这 样 的 简单 类 型 的 实例 变量 的 内 容 可 用 ObjectOutputStream 类 
的 方法 写成 一 个 可 移植 的 二 进 制 格式 。 字 符 串 和 字符 使 用 writeUTF 方法 写 人 ， 该 方法 使 用 通用 传输 格 
式 (UTF-8), UTF 依旧 用 一 个 字 节 表示 ASCH 字符 ， 而 用 多 个 字 节 表示 Unicode 字符 。 字 符 串 前 面 是 
串 占据 的 字 节 数 。 

作为 一 个 例子 ， 考 虑 下 列 对 象 的 序列 化 ; 

Person p = new Person(" Smith" ," London" ,1984) ; 

序列 化 后 的 格式 见 图 4-9， 图 中 省 略 了 完整 序列 化 格式 中 的 句柄 的 值 和 表示 对 象 、 类 、 串 和 其 他 对 
象 的 类 型 标识 符 的 值 。 第 一 个 实例 变量 (1984) 是 有 固定 长 度 的 整数 ; 第 二 个 和 第 三 个 实例 变量 是 
串 ， 串 的 前 面 是 它们 的 长 度 。 














序列 化 值 解释 
[Person | 8 字 节 的 版 本 号 | no | 美 各 、 版 本 号 
3 int year | java.lang.String name | java.lang.String place | 实例 变量 的 个 数 ， 类 型 和 名 字 
s | 5 Smith | 6 London hl i 实例 变量 的 什 








真正 的 序列 化 格式 还 包含 类 型 标识 符 ; h0 和 hl 是 句柄 。 
图 4-9 Java 的 序列 化 格式 表示 


为 了 利用 Java 序列 化 对 Person 对 象 序列 化 ， 要 创建 类 ObjectOutputStream 的 实例 ， 并 以 Person 对 象 
为 参数 调用 它 的 writeObjeet 方法 。 要 从 数据 流 中 解 序列 化 一 个 对 象 ， 应 在 流 上 打开 一 个 ObjectInput- 
Stream， 用 它 的 readObject 方法 重 构 原 来 的 对 象 。 这 一 对 类 的 使 用 与 图 4-5 和 图 4-6 中 说 明 的 DataOut- 
putStream 和 DatalInputStream 类 似 。 

远程 调用 的 参数 和 结果 的 序列 化 及 解 序列 化 通常 由 中 间 件 自动 完成 ， 不 需要 应 用 程序 员 参 与 。 如 
果 有 特殊 需求 ， 程 序 员 可 以 自己 编写 读 写 对 象 的 方法 。 详 细 内 容 请 参阅 有 关 对 象 序列 化 的 教程 [ja- 
va. sun. com Ii] 了 解 如 何 自己 编写 方法 并 获取 Java 序列 化 的 更 多 信息 。 程 序 员 修改 序列 化 效果 的 另 一 
种 方法 是 将 不 应 该 被 序列 化 的 变量 声明 为 transient。 对 本 地 资源 (WMX, ERF) 的 引用 就 不 应 该 
被 序列 化 。 

反射 的 使 用 ”Java 语言 支持 反射 一 一 查询 类 属性 (如 类 实例 变量 和 方法 的 名 字 及 类 型 ) 的 能 力 。 
A$} (reflection) 实现 了 根据 类 名 创建 类 ， 以 及 为 给 定 的 类 创建 具有 给 定 参数 类 型 的 构造 函数 。 反 射 
使 得 以 完全 通用 的 方式 进行 序列 化 和 解 序列 化 成 为 可 能 ， 这 意味 着 没有 必要 像 CORBA 那样 为 每 种 对 
象 类 型 生成 特定 的 编码 函数 。 关 于 反射 的 更 多 信息 请 参见 Flanagan [2002]. 

Java 对 象 序列 化 使 用 反射 找到 要 序列 化 的 对 象 的 类 名 ， 以 及 该 类 的 实例 变量 的 名 字 、 类 型 和 值 。 
这 是 序列 化 格式 所 需 的 全 部 信息 。 

对 解 序列 化 而 言 ， 序 列 化 格式 中 的 类 名 用 于 创建 类 。 然 后 用 类 名 创建 一 个 新 的 构造 函数 ， 它 具有 
与 指定 在 序列 化 格式 中 的 类 型 相应 的 参数 类 型 。 最 后 ， 新 的 构造 函数 用 于 创建 新 的 对 象 ， 其 实例 变量 
的 值 是 从 序列 化 格式 中 读 取 的 。 


4. 3.3 可 扩展 标记 语言 

可 扩展 标记 语言 《Extensible Markup Language, XML) 是 万 维 网 联盟 (W3C) 定义 的 可 在 Web 上 
通用 的 标记 语言 。 通 常 ， 术 语 标 记 语 言 指 的 是 一 种 文本 编码 ， 用 于 表示 正文 和 关于 正文 结构 或 外 观 的 
细节 。XML 和 HTML 都 是 从 一 种 非常 复杂 的 标记 语言 SGML (标准 化 的 通用 标记 语言 ) [ISO 8879] W 
生出 来 的 。HTML (51.647) 用 于 定义 Web 页 面 的 外 观 ， 而 XML 用 于 编写 Web 上 的 结构 化 文档 。 

XML 数据 项 以 “标记 ” 串 做 标签 ， 标 记 用 于 描述 数据 的 退 辑 结构 ， 并 将 属性 - 值 对 与 逻辑 结构 关 
联 起 来 。 也 就 是 说 ， 在 XML 中 ,标记 与 它们 围 起 来 的 正文 结构 相关 ， 而 在 HTML 中 ,标记 指定 浏览 器 
如 何 显示 正文 。 关 于 XML 规约 ， 请 参见 W3C 提供 的 关于 XML 的 网 页 [www. w3. org Vi. 





第 4 章 进程 间 通 信 


XML 用 于 实现 客户 与 Web 服务 的 通信 以 及 定义 Web 服务 的 接口 和 其 他 属性 。 不 过 ，XML 也 可 用 
于 其 他 方面 。 它 可 用 于 存档 和 检索 系统 一 一 尽管 一 个 XML 存档 文件 比 一 个 二 进 制 文件 要 大 ， 但 它 的 优 
势 在 于 可 在 任意 一 台 计 算 机 上 阅读 。 其 他 使 用 XML 的 例子 包括 用 户 界 面 的 规约 和 操作 系统 中 对 配置 文 
件 的 编码 。 

XML 是 可 扩展 的 《extensible) ， 这 意味 着 用 户 能 定义 自己 的 标记 ， 这 点 与 HIML Ale], HTML 只 能 
使 用 固定 的 标记 集合。 如 果 打 算 将 一 个 XML 文档 用 于 多 个 应 用 ,那么 标记 的 名 字 必 须 在 这 些 应 用 中 达 
成 一 致 。 例 如 ， 客 户 通 常 使 用 SOAP 消息 与 Web 服务 通信 。SOAP (参见 9.2.1 节 ) 具有 XML 格式 ， 
其 中 的 标签 专门 用 于 Web 服务 和 它 的 客户 。 

一 些 外 部 数据 表示 (如 CORBA CDR) 不 一 定 是 自 描述 的 ， 因 为 它 假设 客户 和 服务 器 对 要 交换 的 
消息 具有 先 验 的 知识 ， 知 道 消息 所 包含 的 信息 的 顺序 和 类 型 。 不 过 ，XML 原本 希望 供 多 个 应 用 使 
用 ， 并 可 用 于 不 同 的 目的 。 提 供 标记 以 及 定义 标记 含义 的 名 字 空 间 就 是 为 了 使 上 述 目 的 成 为 可 能 。 
另外 ,标记 的 使 用 使 得 应 用 可 选择 它 需 要 处 理 的 部 分 : 增加 与 其 他 应 用 相关 的 信息 ， 并 不 影响 原 有 
应 用 。 

因为 XML 文档 是 文本 形式 的 ， 所 以 人 人 可 读 。 通 常 ， 大 多 数 XML 文档 由 XML 处 理 软件 生成 并 读 
取 ， 但 是 读 XML 的 能 力 在 出 错 的 时 候 更 有 用 。 另 外 ， 文 本 的 使 用 使 得 XML 独立 于 某 个 平台 。 使 用 文 
本 (而 不 是 二 进 制 表 示 ) 和 标记 会 使 消息 变 得 更 大 ， 因 而 需要 更 长 的 时 间 处 理 和 传输 ， 也 需要 更 大 空 
间 进 行 存 储 。9. 2. 4 节 比 较 SOAP XML 格式 的 消息 和 CORBA CDR 格式 消息 的 效率 。 不 过 ， 文 件 和 消息 
能 被 压缩 一 一 HTTP 1. 1 允许 对 数据 进行 压缩 ， 从 而 节省 传输 的 带宽 。 

XML 元 素 和 属性 ”图 4-10 给 出 了 Person 结构 的 XML 定 
义 ， 这 个 结构 用 于 说 明 CORBA CDR 和 Java 中 的 编码 功能 。 它 网 
说 明 XML 由 标记 和 字符 数据 组 成 。 字 符 数 据 (PM, Smith 或 lao Londons place 
1984) 是 实际 的 数据 。 类 似 HTML, XML 文档 的 结构 由 包含 在 <year> 1984</year> 
HRE SARREN., Bl 4-10 中 ，< name > 和 < place > </-- a comment --> 








<person id=" 123456789" > 





都 是 标记 。 与 HIML 一 样 ， 良 好 的 布局 通常 可 以 提高 可 读 性 。 </person > 
XML 中 注释 的 表示 方法 和 HTML 一 样 。 

AR: XML 中 的 元 素 由 匹配 的 开始 标记 和 结束 标记 包围 的 ” 图 4-10 用 XML 定义 的 Perso 结构 
字符 数据 组 成 。 例 如 ， 图 4-10 中 的 一 个 元 素 由 包含 在 < name > … </name > 标记 对 中 的 数据 Smith 组 
成 。 注 意 ， 具 有 <name > 标记 的 元 素 包 含 在 具有 < person id = “123456789” > … </person > 标记 对 的 
元 素 中 。 一 个 元 素 包 含 其 他 元 素 的 能 力 使 得 XML 具有 表示 层次 数据 的 能 力 一 一 这 是 XML 一 个 非常 重 
要 的 方面 。 一 个 空 标 记 没 有 内 容 ， 用 / > 表示 结束 〈 而 不 是 用 > ) 。 例 如 ，< person > … </person > 标 
多 可 以 包括 一 个 空 标 记 < european/ > 。 

属性 ; 一 个 开始 标记 可 以 选择 性 地 包含 关联 的 属性 名 和 属性 值 对 ， 例 如 上 述 的 id = " 123456789" 。 
属性 的 语法 与 HTML 的 语法 一 样 ， 其 中 属性 名 后 面 跟 着 一 个 等 号 和 用 引号 括 起 来 的 属性 值 。 多 个 属性 
值 用 空格 分 开 。 

把 哪些 项 表示 成 元 素 哪些 项 表示 成 属性 要 进行 选择 。 元 素 通 常 是 一 个 数据 容器 ， 而 属性 用 于 标记 
数据 。 在 我 们 的 例子 中 ，123456789 可 以 是 应 用 程序 使 用 的 标识 符 ， 而 name. place 或 year 是 需要 显示 
的 。 如 果 数 据 包 含 子 结构 或 多 行 信息 ， 那 么 它 必须 被 定义 成 元 素 ， 简 单 值 定义 成 属性 。 

名 字 : XML 中 的 标记 和 名 和 属性 名 通常 以 字母 开始 ， 也 可 以 以 下 划 线 或 冒号 开始 。 名 字 首 字符 后 可 
以 是 字母 、 数 字 、 连 字符 、 下 画 线 、 冒 号 或 句号 。 名 字 中 的 字母 是 区 分 大 小 的 ， 以 xml 开始 的 名 字 是 
保留 字 。 

二 进 制 数据 : XML 元 素 中 所 有 的 信息 必须 被 表示 成 字符 数据 。 但 问题 是 ， 我 们 如 何 表 示 加 密 的 元 
素 或 安全 的 散 列 值 ? 这 两 者 将 用 于 9. 5 节 介 绍 的 XML 安全 性 中 。 答 案 是 它们 可 以 用 base64 表示 法 表示 
[ Fred and Borenstein 1996] ， 这 种 方法 仅 用 字母 数字 字符 和 具有 特殊 意义 的 + 、/、= 表示 。 

解析 和 良 构 的 文档 “XML 文档 必须 是 良 构 的 ， 即 它 的 结构 必须 符合 规则 。 一 个 基本 的 规则 是 每 个 开 
始 标 记 都 要 有 一 个 匹配 的 结束 标记 。 另 一 个 基本 的 规则 是 所 有 标记 要 正确 山 套 ， 例如，<x>…<y>… 
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</y >… </x> 蚌 正确 的 , 而 <x>… <y>…</x>…</y> 是 不 正确 的 。 最 后 ， 每 个 XML 文档 必须 
有 一 个 包围 其 他 元 素 的 根 元 素 。 这 些 规则 对 实现 XML 文档 的 解析 器 而 言 是 非常 简单 的 。 当 解析 器 读 到 
一 个 非 良 构 的 XML 文档 时 ， 它 将 报告 一 个 致命 的 错误 。 

CDATA: XML 解析 髓 通常 分 析 元 素 的 内 容 ， 因 为 它们 可 能 包含 嵌 套 的 结构 。 但 如 果 文 本 需要 包含 
一 个 尖 括 号 或 引号 ， 那 么 它 必 须 以 特殊 的 方式 表示 ， 例 如 ，&lt 表示 左 尖 括号 。 但 如 果 因 为 某 种 原因 ， 
不 需要 解析 某 个 部 分 ， 例如， 它 包含 了 特殊 的 字符 ， 那么 它 可 以 表示 成 CDATA。 例 如 ， 如 果 一 个 场地 
的 名 字 中 包含 了 一 个 撤 号 ， 那 么 可 以 用 下 面 两 种 方式 之 一 指定 : 


<place> King &apos Cross </place> 

<place> <![CDATA[King’'s Cross]]></place> 

XML 序言 : 每 个 XML 文档 必须 在 它 的 第 一 行 包含 一 个 序言 (prolog) 。 序 言 必须 至 少 指定 使 用 的 
XML 版 本 〈 当 前 是 1. 0) 。 例 如 ， 

<? XML version = "1.0" encoding="UTF-8" standalone = "yes"?> 

第 三 个 属性 用 于 说 明文 档 是 独立 的 还 是 依赖 于 外 部 定义 的 。 

序言 也 必须 指定 编码 方式 (默认 编码 是 UTF-8， 参 见 4. 3. 2 节 的 解释 ) 。 术 语 编码 方式 指 的 是 用 于 
表示 字符 的 代码 集 一 一 ASCII 是 我 们 最 熟知 的 例子 。 注 意 ， 在 XML 序言 中 ，ASCII 被 指定 成 us- ascii. 
其 他 可 能 的 编码 方式 包括 ISO-8859-1 (或 Latin-1) ， 它 也 是 一 种 8 位 编码 方式 ， 前 128 个 值 是 ASCII 字 
符 ， 其 他 字符 用 于 表示 西方 欧洲 语言 中 的 字符 。 其 他 8 位 编码 用 于 表示 其 他 字母 表 〈 如 希腊 语 或 斯 拉 
夫 语 ) 。 

可 以 用 另 一 个 属性 指明 文档 是 独立 的 还 是 依赖 于 某 些 外 部 定义 。 

XML 名 字 空间 ”通常 情况 下 ， 名 字 空间 为 设 定名 字 的 作用 域 提供 了 一 个 手段 。 一 个 XML 名 字 空 
间 是 具有 一 组 元 素 类 型 和 属性 的 一 个 名 字 集 合 ， 通 过 URL 引用 。 其 他 XML 文档 可 通过 引用 名 字 空 间 
的 URL 使 用 该 名 字 空 间 。 

利用 XML 名 字 空 间 的 元 素 将 名 字 空间 指定 成 名 为 xmlns 的 属性 ， 该 属性 的 值 是 一 个 URL， 指 向 包 
含 名 字 空间 定义 的 文件 。 例 如 : 

xmins:pers = "http://www.cdk5.net/person" 

xmlns 后 面 的 名 字 (这 里 是 pers) 可 以 作为 一 个 前 级 ， 指 向 某 个 名 字 空 间 中 的 元 素 ， 如 图 4-11 所 
Fo pers RUBE person GR PRR EA http://www. cdk5. net/person。 一 个 名 字 空 间 的 应 用 范围 为 开标 
记 和 闭 标 记 所 确定 的 范围 内 ， 除 非 被 一 个 内 含 的 名 字 空 间 定义 取代 。 一 个 XML 文档 可 能 定义 了 多 个 不 
同 的 名 字 空 间 ， 每 个 名 字 空 间 用 其 唯一 的 前 级 引用 。 


<person pers:id="123456789" xmlns:pers = "http://www.cdk5.net/person"> 
<pers:name> Smith </pers:name> 





<pers:place> London </pers:place > 
<pers:year> 1984 </pers:year> 
</person> 





图 4-11 在 Person 结构 中 使 用 名 字 空 间 


名 字 空 间 的 约定 允许 一 个 应 用 程序 利用 不 同名 字 空 间 中 的 多 个 外 部 定义 ， 而 不 存在 名 字 冲 突 的 
风险 。 

XML 模式 ”一 个 XML 模式 [www. w3. org W] 定义 了 在 文档 中 出 现 的 元 素 和 属性 、 元 素 如 何 作 
套 、 元 素 的 顺序 及 个 数 、 元 素 是 否 为 空 或 能 否 包 含 文本 等 。 对 于 每 个 元 素 ， 它 定义 了 类 型 和 默认 
值 。 图 4-12 给 出 了 一 个 模式 的 例子 ， 它 定义 了 图 4-10 所 示 的 person 结构 的 XML 定义 的 数据 类 型 
和 结构 。 

目的 是 单个 模式 定义 可 被 多 个 不 同 的 文档 共享 。 一 个 XML 文档 遵循 某 个 模式 定义 ， 那 么 可 以 通过 
这 个 模式 进行 验证 。 例 如 ，SOAP 消息 的 发 送 者 可 以 使 用 XML 模式 编码 消息 ， 接 收 者 将 用 相同 的 XML 
模式 进行 验证 并 解码 消息 。 
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文档 类 型 定义 : 文档 类 型 定义 (Document Type Definitions, DTD) [ www. w3. org Vi] 是 作为 XML 
1.0 规约 的 一 部 分 提供 的 ， 用 于 定义 XML 文档 的 结构 ， 目 前 仍 被 广泛 使 用 。DTD 的 语法 与 XML 的 其 
他 部 分 不 一 样 ， 其 描述 能 力 比 较 有 限 。 例 如 ， 它 不 能 描述 数据 类 型 ， 它 的 定义 是 全 局 的 ， 因 此 元 素 名 
不 能 重复 。DTD 不 用 于 定义 Web 服务 ， 尽 管 它们 仍 可 以 用 于 定义 由 Web 服务 传输 的 文档 。 








<xsd:schema xmins:xsd = URL of XML schema definitions > 
<xsd:element name= "person" type ="personType" /> 
<xsd:complexType name="personType"> 
<xsd:sequence> 
<xsd:element name = "name" type="xs:string"/> 
<xsd:element name = "place" type="xs:string"/> 
<xsd:element name = "year" type="xs:positiveInteger"/> 
</xsd:sequence> 


<xsd.attribute name= "id" type = "xs:positivelnteger"/> 
</xsd:complexType> 
</xsd:schema> 








图 4-12 用 于 Person 结构 的 XML 模式 167 


访问 XML 的 API 大 多 数 常 用 的 编程 语言 有 可 用 的 XML 解析 器 和 生成 器 。 例 如 ， 将 Java 对 象 给 
出 成 XML 〈 即 编码 ) 的 Java 软件 和 从 类 似 结构 中 创建 Java 对 象 〈 即 解码 ) 的 软件 。Python 编程 语言 
有 类 似 的 软件 用 于 Python 数据 类 型 和 对 象 。 


4.3.4 ”远程 对 象 引用 


本 节 的 内 容 仅 适用 于 诸如 Java 和 CORBA 这 样 的 支持 分 布 对 象 模型 的 语言 ， 与 XML 无 关 。 

客户 调用 远程 对 象 中 的 一 个 方法 时 ， 就 会 向 存放 远程 对 象 的 服务 器 进程 发 送 一 个 调用 消息 。 这 个 
消息 需要 指定 哪 一 个 对 象 具有 要 调用 的 方法 。 远 程 对 象 引 用 (remote object reference) 是 远程 对 象 的 标 
识 符 ， 它 在 整个 分 布 式 系统 中 有 效 。 远 程 对 象 引用 在 调用 消息 中 传递 ， 以 指定 调用 哪 一 个 对 象 。 第 5 
章 将 介绍 远程 对 象 引 用 也 作为 远程 方法 调用 的 参数 传递 ， 并 作为 远程 方法 调用 的 结果 返回 , 第 5 章 还 
将 说 明 每 个 远程 对 象 有 一 个 远程 对 象 引 用 ， 并 通过 比较 远程 对 象 引 用 确定 它们 是 否 指向 同一 个 远程 对 
象 。 现 在 我 们 讨论 远程 对 象 引 用 的 外 部 表示 。 

远程 对 象 引 用 必须 以 确保 空间 和 时 间 唯 一 性 的 方法 生成 。 通 常 ， 在 远程 对 象 上 有 许多 进程 ， 所 以 
远程 对 象 引 用 在 分 布 式 系统 的 所 有 进程 中 必须 是 唯一 的 。 即 使 在 删除 与 给 定 远 程 对 象 引用 相关 的 远程 
对 象 后 ， 该 远程 对 象 引 用 也 不 能 被 重用 ， 因 为 潜在 的 调用 者 还 可 能 保留 着 过 期 的 远程 对 象 引 用 ， 记 住 
这 一 点 非常 重要 。 试 图 调用 已 删除 对 象 应 该 产生 一 个 出 错 信息 ， 而 不 应 该 允许 访问 另 一 个 对 象 。 

有 几 个 方法 可 以 确保 远程 对 象 引用 是 唯一 的 。 一 种 方法 是 通过 拼接 计算 机 的 互联 网 地 址 、 创 建 远 
程 对 象 引 用 的 进程 的 端口 号 、 创 建 时 间 和 本 地 对 象 编号 来 构造 远程 对 象 引 用 。 每 次 进程 创建 一 个 对 象 ， 
本 地 对 象 编号 就 增加 1。 

端口 号 与 时 间 一 起 在 计算 机 上 产生 唯一 的 进程 标识 符 。 利 用 这 种 方法 ， 远 程 对 象 引 用 可 用 图 4-13 
所 示 的 格式 表示 。 在 RMI 的 最 简单 实现 中 ， 远 程 对 象 仅 在 创建 它们 的 进程 中 存在 ， 并 只 在 该 进程 运行 
时 存活 。 在 这 种 情况 下 ， 远 程 对 象 引 用 可 以 作为 远程 对 象 的 地 址 。 换 句 话说 ， 调 用 消息 被 发 送 到 远程 


引用 中 的 互联 网 地 址 ， 并 传递 给 该 计算 机 上 使 用 给 定 端口 号 的 进程 。 168 
32 比 特 32 比 特 32 比 特 32 比 特 
互联 网 地 址 | ”端口 号 时 间 对 象 编号 | 远程 对 象 接口 








图 4-13 ”远程 对 象 引用 的 表示 
为 了 使 远程 对 象 在 不 同 计算 机 的 不 同 进程 中 重 定位 ， 远 程 对 象 引用 不 应 该 作为 远程 对 象 的 地 址 
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使 用 。8. 3. 3 节 讨 论 远程 对 象 引用 的 一 种 格式 , 它 允 许 对 象 在 它 的 生命 周期 中 在 不 同 的 服务 器 上 被 
激活 。 

第 10 章 将 要 描述 的 对 等 覆盖 网 络 使 用 完全 与 位 置 无 关 的 远程 对 象 引用 。 消 息 通过 一 个 分 布 式 路 由 
算法 路 由 到 资源 所 在 地 。 

图 4-13 中 远程 对 象 引用 的 最 后 一 个 域 包含 关于 远程 对 象 接口 的 信息 ， 例 如 接口 名 。 该 信息 与 接收 
远程 对 象 引用 作为 远程 调用 的 参数 或 结果 的 进程 有 关 ， 因 为 它 需 要 知道 由 远程 对 象 提供 的 方法 。 这 一 
点 将 在 5.4.2 节 中 解释 。 


4.4 组 播 通信 

消息 成 对 交换 不 是 一 个 进程 到 一 组 进程 通信 的 最 佳 模式 。 一 个 进程 与 一 组 进程 通信 可 能 是 必要 的 。 
例如 ， 为 了 提供 容错 能 力 或 为 了 提高 可 用 性 而 将 一 个 服务 实现 为 多 个 不 同 计算 机 上 的 多 个 不 同 的 进程 ， 
那么 就 会 有 一 个 进程 到 一 组 进程 的 通信 。 组 播 操作 (multicast operation) 是 更 合适 的 方式 ， 这 是 一 个 将 
单个 消息 从 一 个 进程 发 送 到 一 组 进程 的 每 个 成 员 的 操作 ， 组 的 成 员 对 发 送 方 通常 是 透明 的 。 组 播 的 行 
为 有 很 多 种 可 能 情况 。 最 简单 的 组 播 不 提供 消息 传递 保证 或 排序 保证 。 

组 播 消息 为 构造 具有 下 列 特征 的 分 布 式 系 统 提供 了 基础 设施 : 

1) 基于 复制 服务 的 容错 (fault tolerance based on replicated services): 一 个 复制 服务 由 一 组 服务 器 
组 成 。 客 户 请 求 被 组 播 到 组 的 所 有 成 员 ， 每 一 个 成 员 都 执行 相同 的 操作 。 即 使 一 些 成 员 出 现 故障 ， 仍 
能 为 客户 提供 服务 。 

2) 在 自发 网 络 中 发 现 服务 (discovering services in spontaneous networking); 1.3.2 节 讨 论 了 自发 网 
络 中 的 发 现 服务 。 客 户 和 服务 器 能 使 用 组 播 消息 找到 可 用 的 发 现 服务 ， 以 便 在 分 布 式 系统 中 注册 服务 
接口 或 查找 其 他 服务 的 接口 。 

3) 通过 复制 的 数据 获得 更 好 的 性 能 (better performance through replicated data): 复制 数据 能 提高 
服务 的 性 能 。 在 某 些 情况 下 ， 数 据 的 副本 放 在 用 户 的 计算 机 上 。 每 次 数据 改变 ， 新 的 值 便 被 组 播 到 管 
理 副本 数据 的 各 个 进程 。 

4) 事件 通知 的 传播 (propagation of event notification) ; 组 播 到 一 个 组 可 用 于 在 发 生 某 些 事 情 时 通 
知 有 关 进 程 。 例 如 ， 在 Facebook 中 ， 当 某 个 人 改变 了 自己 的 状态 时 ， 他 的 所 有 好 友 都 会 收 到 通知 。 同 
样 ， 发 布 -订阅 协议 使 用 组 播 向 订阅 者 发 布 消息 ， 这 将 在 第 6 章 讨论 。 

在 本 节 中 ， 我 们 先 介 绍 瑟 组 播 ， 然 后 回顾 上 述 使 用 组 通信 的 要 求 ， 看 看 IP 组 播 能 满足 其 中 的 哪 
些 要 求 。 对 于 不 能 满足 的 要 求 ， 我 们 在 组 通信 协议 中 提出 了 P 组 播 已 有 特征 之 外 的 更 多 特征 。 


4.4.1 IP 组 播 一 一 组 播 通信 的 实现 


本 节 讨 论 IP AR, FL MulticastSocket 类 给 出 组 播 的 Java API, 

Ip 43 IP% (IP multicast) 在 网 际 协议 P 的 上 层 实 现 。 注 意 ， 耳 数据 包 是 面向 计算 机 的 一 一 
端口 属于 TCP 和 UDP E, P 组 播 使 发 送 方 能 够 将 单个 P 数据 包 传送 给 组 成 组 播 组 的 一 组 计算 机 。 发 
送 方 不 清楚 每 个 接收 者 身份 和 组 的 大 小 。 组 播 组 (multicast group) 由 了 类 互联 网 地 址 (参见 图 3-15) 
指定 ， 即 在 IPv4 中 ,前 4 位 是 1110 的 地 址 。 

组 播 组 的 成 员 人 允许 计算 机 接收 发 送 给 组 的 耳 数据 包 。 组 播 组 的 成 员 是 动态 的 ， 计 算 机 可 以 在 任何 
时 间 加 入 或 离开 ， 计 算 机 也 可 以 加 入 任意 数量 的 组 。 可 以 无 须 成 为 成 员 就 向 一 个 组 播 组 发 送 数据 报 。 

在 应 用 编程 级 ，IP 组 播 只 能 通过 UDP 可 用 。 应 用 程序 通过 发 送 具 有 组 播 地 址 和 普通 的 端口 号 的 
UDP 数据 报 完 成 组 播 。 应 用 通过 将 套 接 字 加 入 到 组 来 加 和 一 个 组 播 组 ， 使 得 它 能 从 组 接收 消息 。 在 了 下 
层 ， 当 一 个 或 多 个 进程 具有 属于 一 个 组 播 组 的 套 接 字 时 ， 该 计算 机 属于 这 个 组 播 组 。 当 一 个 组 播 消息 
到 达 计 算 机 时 ， 消 息 副本 被 转发 到 所 有 已 经 加 入 到 指定 组 播 地 址 和 指定 端口 号 的 本 地 套 接 字 上 。 下 列 
特点 是 IPv4 特有 的 : 

组 播 路 由 器 (multicast router); IP 数据 包 既 能 在 局 域 网 上 组 播 也 能 在 互联 网 上 组 播 。 本 地 的 组 播 
使 用 了 局 域 网 (例如 以 太 网 ) 的 组 播 能 力 。 互 联网 上 的 组 播 利用 了 组 播 路 由 器 ， 由 它 将 单个 数据 报 转 
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发 到 其 他 成 员 所 在 网 络 的 路 由 器 上 ， 再 通过 路 由 器 组 播 到 本 地 成 员 。 为 了 限制 组 播 数据 报 传播 的 距离 ， 
发 送 方 可 以 指定 允许 通过 的 路 由 器 数量 ， 这 称 为 存活 时 间 (time to live), MFK TIL。 要 了 解 路 由 器 如 
何 知道 其 他 的 哪个 路 由 器 具有 组 播 组 的 成 员 ， 请 参见 Comer [2007] 。 

组 播 地 址 分 配 (multicast address allocation); WER 3 章 所 讨论 的 , D 类 地 址 (224.0.0.0 ~ 
239. 255. 255.255) 作为 组 播 通信 的 保留 地 址 ， 由 IANA (Internet Assigned Numbers Authority) 来 全 局 管 
理 ， 每 年 都 会 对 这 类 地 址 空间 进行 审阅 ， 参 见 最 新 文档 RPC 3171 [Albanna et al. 2001 ] ， 这 篇 文档 将 这 
类 地 址 空间 分 成 以 下 几 块 ; 

© 本 地 网 络 控 制 块 (224. 0. 0. 0 ~ 224. 0. 0. 225 ) ， 在 给 定 的 本 地 网 络 中 进行 组 播 通 信 。 

e 互联 网 控制 块 (224.0. 1.0 ~ 224. 0. 1. 225 ) 。 

e Ad Hoc 控制 块 (224. 0. 2. 0 ~ 224. 0. 22$. 0) ， 用 于 不 适合 其 他 任何 网 络 的 通信 。 

© 管理 块 (239. 0. 0. 0 ~ 239. 255. 255.255), ， 用 于 实现 组 播 通信 的 作用 域 机 制 〈 限 制 传播 ) 。 

组 播 地 址 可 以 是 永久 的 ， 也 可 以 是 暂时 的 。 即 便 没有 任何 成 员 ， 永 久 组 仍然 存在 ， 它 们 的 地 址 由 
IANA 分 派 并 且 可 以 是 以 上 提 到 的 任 一 块 中 的 地 址 。 例 如 ， 第 14 章 将 讲 到 ， 网 络 块 地 址 中 的 224. 0. 1.1 
是 为 NTP (Network Time Protocol) 保留 的 地 址 ，Ad Hoc 块 中 的 地 址 范围 224. 0. 6. 000 ~ 224. 0. 6. 127 是 
为 ISIS 计划 预 留 的 地 址 (参见 第 6 和 第 18 章 )。 预 留 地 址 有 很 多 目的 ， 有 的 是 为 了 说 明 互 联网 协议 ， 
有 的 是 为 大 量 用 到 组 播 通 信 的 组 织 而 预 留 的， 诸如 多 媒体 广播 和 金融 机 构 。 可 以 在 IANA 的 网 页 
www. iana. org I 找到 这 些 预 留 地 址 列表 。 

剩 下 的 组 播 地 址 可 用 于 临时 组 ， 这 些 组 必须 在 使 用 前 创建 ， 在 所 有 成 员 离 开 的 时 候 消 失 。 创 建 一 
个 临时 组 时 ， 要 有 一 个 空闲 的 组 播 地 址 以 避免 意外 地 加 入 到 一 个 已 有 组 中 。 了 王 组 播 协议 没有 解决 这 个 
问题 。 但 当 仅 需 要 本 地 通信 时 ， 可 以 有 相对 简单 的 解决 办 法 一 一 例如 ， 将 TTL 设置 为 一 个 小 的 值 ， 使 
得 它 不 可 能 与 其 他 组 选择 同一 个 地 址 。 然 而 ， 用 了 正 组 播 在 互联 网 上 编程 需要 更 复杂 的 方法 来 解决 这 个 
间 题 。RFC 2908 [Thaler et al. 2000] 描述 了 一 个 互联 网 上 应 用 程序 的 组 播 地 址 分 配 架 构 (Multicast 
Address Allocation Architecture，MALLOC) ， 它 为 给 定 生 存 时 间 、 给 定 作 用 域 分 配 唯 一 的 地 址 。 这 样 ， 
方案 就 和 上 文 提 到 的 作用 域 机 制 绑 定 在 一 起 。 当 采用 客户 -服务 器 方案 时 ， 客 户 从 一 个 组 播 地 址 分 配 
服务 器 (Multicast Address Allocation Server, MAAS) 请 求 一 个 组 播 地 址 时 ， 地 址 分 配 服务 器 随后 跨 域 
通信 确保 所 分 配 的 地 址 在 给 定 的 生存 时 间 和 作用 域内 是 唯一 的 。 

组 播 数据 报 的 故障 模型 ”IP 组 播 上 的 数据 报 组 播 与 UDP 数据 报 有 相同 的 故障 特征 ， 也 就 是 说 ， 它 
们 也 会 遭遇 遗漏 故障 。 如 果 在 组 播 上 出 现 遗 漏 故 障 ， 那 么 哪怕 遇 到 一 个 遗漏 故障 ， 消 息 也 不 能 保证 传 
递 到 一 个 特定 组 的 所 有 成 员 。 也 就 是 说 ， 有 部 分 组 成 员 能 接收 到 消息 。 这 称 为 不 可 靠 的 组 播 ， 因 为 它 
不 能 保证 消息 传递 到 组 的 每 一 个 成 员 。 可 靠 的 组 播 见 第 15 章 的 讨论 。 

IP 组 播 的 Java API Java API 通过 类 MulticastSocket 提供 下 组 播 的 数据 报 接口 ， 类 Multicast - 
Socket 是 DatagramSocket 的 子 类 ， 有 具有 加 入 组 播 组 的 能 力 。 类 MulticastSocket 提供 了 两 个 构造 函数 ， 人 允 
许 用 一 个 指定 的 本 地 端口 〈 例 如 ， 图 4-14 中 所 示 的 6789) 或 任何 空闲 的 本 地 端口 创建 套 接 字 。 一 个 进 
程 可 通过 调用 它 的 组 播 套 接 字 的 joinGroup 方法 以 一 个 给 定 的 组 播 地 址 为 参数 加 入 到 一 个 组 播 组 。 实 际 
上 ， 套 接 字 在 给 定 端 口 加 入 到 一 个 组 播 组 ， 它 将 接收 其 他 计算 机 上 的 进程 发 送 给 位 于 该 端口 所 在 的 组 
的 数据 报 。 进 程 通过 调用 它 的 组 播 套 接 字 的 leaveGroup 方法 离开 指定 的 组 。 

在 图 4- 14 所 示 的 例子 中 ，main 方法 的 参数 指定 了 要 组 播 的 消息 和 组 的 组 播 地 址 (例如 
“228. 5.6.7”) 。 在 加 入 到 组 播 组 后 ， 进 程 生成 包含 消息 的 DatagramPacket 的 实例 ， 并 通过 组 播 套 接 字 
发 送 该 消息 到 端口 6789 上 的 组 播 组 地 址 。 之 后 ， 它 试图 通过 它 的 套 接 字 从 同属 同一 端口 上 的 其 他 组 成 
员 处 接收 三 个 组 播 消 息 。 当 该 程序 的 几 个 实例 同时 在 不 同 的 计算 机 上 运行 时 ， 它们 都 加 入 同一 个 组 ， 
每 一 个 实例 应 该 接收 自己 的 消息 和 来 自 同一 组 的 消息 。 

Java API 人 允许 通过 setTimeToTive 方法 为 组 播 套 接 字 设置 TTL。 默 认 值 是 1， 人 允许 组 播 仅 在 局 域 网 中 
传播 。 

在 下 组 播 上 实现 的 应 用 可 以 使 用 多 个 端口 。 例 如 ，MultiTalk [ mbone] 应 用 允许 用 户 组 保持 文本 
格式 的 会 话 ， 它 用 一 个 端口 发 送 和 接收 数据 ， 用 另 一 个 端口 交换 控制 数据 。 
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import java.net. *; | 
import java.io.*; 
public class MulticastPeer{ 
public static void main(String args[]){ 
// args give message contents & destination multicast group (e.g. "228.5.6.7") 
MulticastSocket s =null; 
try { . 
InetAddress group = InetAddress.getByName(args[1]); 
s = new MulticastSocket(6789); 
sjoinGroup(group); 
byte [] m = args[0].getBytes(); 
DatagramPacket messageOut = 
new DatagramPacket(m, m.length, group, 6789); 
s.send(messageOut); 
byte{] buffer = new byte[1000]; 
for(int i=0; i< 3; it+) {/ get messages from others in group 
DatagramPacket messageln = 
new DatagramPacket(buffer, buffer.length); 
s.receive(messageln); 
System.out.printin("Received:" + new String(messagein.getData())); 
2 


s.leaveGroup(group); 
featch (SocketException e){System.out.printin("Socket: " + e.getMessage()); 
jcatch (IOException e){System.out.printin("IO: " + e.getMessage()); 
Hinally {if(s {= null) s.closeQ);} 
} 








图 4-14 组 播 成 员 加 入 一 个 组 ， 然 后 发 送 和 接收 数据 报 


4.4.2 组 播 的 可 靠 性 和 排序 


上 一 节 介绍 了 了 组 播 的 故障 模型 。 从 一 个 组 播 路 由 器 发 送 到 另 一 个 路 由 器 的 数据 报 也 可 能 丢失 ， 
这 妨碍 了 另 一 端 路 由 器 的 接收 者 接收 消息 。 也 就 是 说 ，IP 组 播 会 过 到 跟 漏 故障 。 对 局 域 网 的 组 播 而 
言 ， 它 利用 网 络 的 组 播 能 力 让 单个 数据 报到 达 多 个 接收 者 ， 但 任何 一 个 接收 者 都 可 能 因为 它 的 缓冲 区 
已 满 而 丢弃 消息 。 

另 一 个 因素 是 任何 进程 可 能 失败 。 如 果 组 播 路 由 器 出 现 故障 ， 那 么 通过 路 由 器 到 达 的 组 成 员 将 不 
能 接收 到 组 播 消息 ， 尽 管 本 地 成 员 还 可 以 接收 组 播 消息 。 

还 有 一 个 问题 是 排序 。 在 互连网 络 土 发 送 的 IP 数据 包 不 一 定 按 发 送 顺 序 到 达 ， 这 样 ， 组 中 的 一 些 
成 员 从 同一 个 发 送 者 处 接收 的 数据 报 的 顺序 可 能 与 其 他 组 成 员 接收 的 顺序 不 一 样 。 另 外 ， 两 个 不 同 的 
进程 发 送 的 消息 不 必 以 相同 的 顺序 到 达 组 的 所 有 成 员 。 

可 靠 性 和 排序 的 效果 举例 ”我们 现在 用 4. 4 节 开 始 部 分 介绍 的 四 个 使 用 复制 的 例子 考虑 IP 组 播 故 
障 语义 的 作用 。 

1) 基于 复制 服务 的 容错 ; 考虑 这 样 一 个 复制 服务 ， 它 由 一 组 服务 器 组 成 ， 这 些 服务 器 以 相同 的 初 
始 状态 启动 ， 总 是 以 相同 的 顺序 执行 相同 的 操作 ， 以 便 维持 彼此 之 间 的 一 致 性 。 这 个 组 播 应 用 要 求 要 
么 所 有 的 副本 接收 到 同一 个 操作 请 求 ， 要 么 所 有 的 副本 都 没有 接收 到 操作 请 求 一 一 如 果 有 一 个 副本 错 
过 了 该 请 求 ， 那 么 它 就 无 法 与 其 他 副本 保持 一 致 。 在 大 多 数 情况 下 ， 该 服务 将 要 求 所 有 成 员 以 相同 的 
顺序 接收 请 求 消息 。 
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2) 在 自发 网 络 中 发 现 服务 : 进程 在 自发 网 络 中 发 现 服务 的 一 种 方法 是 ， 在 一 定 间 隔 期 发 送 组 播 请 
求 ， 可 被 访问 的 服务 器 监听 到 这 些 请 求 并 作出 回应 。 偶 尔 的 请 求 丢 失 是 可 以 接受 的 。 事 实 上 ，Jini 在 
它 的 协议 中 使 用 了 P 组 播 寻 找 发 现 服务 器 。19. 2. 1 节 将 讲述 这 个 问题 。 

3) 通过 复制 的 数据 获得 更 好 的 性 能 : 考虑 利用 组 播 消息 分 布 复制 数据 本 身 而 不 是 数据 上 的 操作 的 
情况 ， 此 时 消息 丢失 和 顺序 不 一 致 所 产生 的 后 果 取 决 于 复制 的 方法 和 所 有 最 新 副本 的 重要 性 。 

4) 事件 通知 的 传播 : 特定 应 用 决定 了 组 播 所 要 求 的 质量 。 例 如 ，Jini 的 查找 服务 使 用 IP 组 播 通告 
服务 的 存在 (参见 19.2.1 节 )。 

这 些 例 子 说 明 ， 一 些 应 用 需要 比 耳 组 播 更 可 靠 的 组 播 协议 。 特 别 是 ， 有 可 靠 组 播 的 需求 ， 即 传输 
的 任何 消息 要 么 被 一 个 组 的 所 有 成 员 都 收 到 ， 要 人 么 所 有 成 员 都 收 不 到 。 这 些 例子 也 说 明 ， 有 些 应 用 对 
顺序 有 严格 的 要 求 ， 其 中 最 严格 的 称 为 全 排序 组 播 〈 传 输 到 一 个 组 的 所 有 消息 要 以 相同 的 顺序 到 达 所 
有 成 员 ) 。 

第 15 章 将 定义 和 说 明 如 何 实现 可 靠 组 播 以 及 各 种 有 用 的 排序 保证 ， 包 括 全 排序 组 播 。 


4.5 PSR: 覆盖 网 络 

互联 网 通信 协议 的 强大 在 于 它们 通过 AP] (参见 4.2 节 ) 提供 了 一 组 有 效 的 构造 分 布 式 软件 的 构 
造 块 。 然 而 ， 不 断 增 加 的 大 量 不 同类 型 的 应 用 〈 例 如 ， 对 等 文件 共享 和 Skype) 在 互联 网 上 并 存 。 试 
图 更 改 互联 网 协议 来 适应 运行 在 其 上 的 每 一 个 应 用 是 不 实际 的 ， 因 为 这 可 能 提高 了 一 个 应 用 的 性 能 ， 
而 对 另 一 个 应 用 产生 危害 。 另 外， 卫 传输 服务 是 实现 在 大 量 持 续 增 多 的 网 络 技 术 之 上 的 。 这 两 个 因素 
引起 了 人 们 对 网 络 虚拟 化 的 兴趣 。 

网 络 虚 拟 化 【Petersen et al. 2005] 涉及 在 一 个 已 有 的 网 络 〈 如 互联 网 ) 之 上 构造 多 个 不 同 的 虚拟 
网 络 。 每 个 虚拟 网 络 被 设计 成 支持 一 个 特定 的 分 布 式 应 用 。 例 如 ， 一 个 虚拟 网 络 可 以 支持 多 媒体 流 ， 
例如 在 BBC iPlayer, BoxeeTV [boxee. tv] 或 Hulu [hulu com) 中 ， 它 和 支持 多 人 在 线 游 戏 的 虚拟 网 络 
共存 ， 它 们 都 在 相同 的 底层 网 络 上 运行 。 这 为 由 Salzer 的 端 到 端 争论 ( 见 2.3.3 节 ) 引起 的 困境 提供 
了 一 种 解决 方案 : 一 个 面向 特定 应 用 的 虚拟 网 络 能 建 在 一 个 已 有 的 网 络 上 并 为 特定 的 应 用 进行 优化 ， 
而 不 改变 底层 网 络 的 特征 。 

第 3 章 给 出 了 计算 机 网 络 的 寻 址 模式 、 协 议和 路 由 算法 ， 类 似 地 ， 每 个 虚拟 网 络 有 它 自 己 特定 的 
寻 址 模式 、 协 议和 路 由 算法 ， 它 们 被 重新 定义 以 满足 特定 类 应 用 的 需求 。 


4.5.1 覆盖 网 络 


覆盖 网 络 〈overlay network) 是 一 个 结 点 和 虚拟 链接 组 成 的 虚拟 网 络 ， 它 位 于 一 个 底层 网 络 (例如 
IP 网 络 ) 之 上 ， 提 供 一 些 独 有 的 功能 : 

。 满足 一 类 应 用 需求 的 服务 或 一 个 特别 高 层 的 服务 ， 例 如 ， 多 媒体 内 容 的 分 发 ; 

。 在 一 个 给 定 的 联网 环境 中 的 更 有 效 的 操作 ， 例 如 ， 在 一 个 自 组 织 网 络 中 的 路 由 

。 额外 的 特色 ， 例 如 ， 组 播 或 安全 通信 。 

这 导致 了 一 大 类 覆盖 网 络 ， 如 图 4-15 所 示 。 覆 盖 网 络 有 下 列 好 处 : 

。 它们 使 得 不 改变 底层 网 络 就 能 定义 新 的 网 络 服务 ， 关 键 取决 于 该 领域 标准 化 的 水 平和 修补 底层 

路 由 器 功能 的 困难 。 

。 它们 鼓励 对 网 络 服务 进行 实验 和 对 服务 进行 面向 特定 应 用 的 定制 。 

。 能 定义 多 个 覆盖 网 (overlay) ， 它 们 能 同时 存在 ， 从 而 形成 更 开放 和 可 扩展 的 网 络 体系 结构 。 

覆盖 网 的 不 足 是 引入 了 额外 的 间接 层 ( 因 此 可 能 会 有 性 能 损失 ) ， 例 如 ， 与 相对 简单 的 TCP/P 网 
络 的 体系 结构 相 比 ， 它 增加 了 网 络 服 务 的 复杂 性 。 

覆盖 网 与 熟悉 的 分 层 概念 相关 (已 在 第 2 章 和 第 3 章 做 了 介绍 ) 。 一 个 覆盖 网 是 一 层 ， 是 在 标准 体 
系 结构 (诸如 TCP/IP 栈 ) 外 存在 的 一 层 ， 而 且 它 利 用 了 由 此 带 来 的 自由 度 。 特 别 是 ， 履 盖 网 开发 者 
能 自由 地 重 定义 如 上 所 述 的 网 络 的 核心 元 案 ， 包括 寻 址 的 模式 、 所 采用 的 协议 和 路 由 的 方法 ， 它 经 党 
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引入 完全 不 同 的 方法 ， 能 针对 操作 环境 的 特定 类 应 用 进行 裁剪 。 例 如 ， 分 布 式 散 列表 引信 了 基于 键 空 
间 的 寻 址 类 型 ， 也 建立 了 一 个 拓扑 ， 该 拓扑 结构 中 的 一 个 结 点 或 者 拥有 键 或 者 有 一 个 指向 更 靠近 拥有 
者 的 结 点 的 链接 (这 种 风格 的 路 由 称 为 基于 键 的 路 由 (key- based routing) ) 。 这 种 拓扑 最 常见 的 形式 
是 环 。 

















| 动机 | xa | 描 述 | 
分 布 式 散 列表 一 类 最 著名 的 覆盖 网 络 ， 所 提供 的 服务 能 以 完全 分 散 的 方式 在 大 量 结 点 上 
管理 键 到 值 的 喘 射 (类 似 一 个 联网 环境 下 的 标准 散 列表 ) 
对 等 文件 共享 覆盖 网 结构 关注 构造 被 裁剪 的 寻 址 和 路 由 机 制 ， 以 支持 文件 的 协作 发 现 和 
为 应 用 需求 而 裁剪 使 用 (例如 ， FR) 
内 容 分 发 网 络 这 些 覆 盖 网 把 复制 、 缓 存 和 放置 策 路 妇 类 ， 以 在 为 Web 用 户 传送 内 容 方面 
提供 改善 的 性 能 ， 用 于 Web 加 速 和 为 视频 流 提供 所 要 求 的 实时 性 能 
| | [www. kontiki. com] a 
无 线 自 组 织 网 络 网 络 覆 盖 网 为 无 线 自 组 织 网 络 提供 定制 的 路 由 协议 ， 包 括 能 在 底层 结 点 上 
有 效 构造 路 由 拓扑 的 主动 模式 和 按 需 构建 路 由 的 被 动 模式 ， 后 者 通常 由 泛 洪 
为 网 络 类 型 而 裁 前 | 机 制 支 持 
容 中 断 网 络 该 类 覆盖 网 设计 用 于 在 恶劣 环境 中 工作 ， 会 遭遇 重要 结 点 或 链接 故障 ， 可 
| | 能 有 很 高 的 延迟 | 
覆盖 网 络 在 互联 网 上 的 一 种 最 早 的 应 用 ， 在 没有 组 播 路 由 器 的 地 方 ， 提 供 
组 播 对 组 播 服务 的 访问 ; 建立 在 由 Van Jacobsen, Deering 和 Casner 实现 的 MBone 
(组 播 主干 网 ) [mbone] 之 上 
提供 额外 的 特性 | ”恢复 能 力 用 于 寻找 大 幅度 提升 互联 网 路 径 健壮 性 和 可 用 性 的 狗 盖 网 络 [ nms. 
csail. mit. edu | 
安全 性 在 底层 IP 网 络 上 提供 增强 安全 性 的 覆盖 网 络 ， 例 如 ， 和 内 拟 私 网 ， 见 3.4.8 
节 的 讨论 














图 4-15 覆盖 网 的 类 型 


我 们 用 Skype 来 举例 说 明 覆 盖 网 络 的 成 功 使 用 。 本 书 将 给 出 覆盖 网 进一步 的 例子 。 例 如 ,第 10 章 
给 出 了 对 等 文件 共享 所 采用 的 协议 和 结构 细节 ， 以 及 关于 分 布 式 散 列表 的 进一步 信息 。 第 19 章 考 虑 了 
在 移动 和 无 处 不 在 计算 上 下 文中 的 无 线 自 组 织 网 络 和 容 中 断 网 络 ， 第 20 章 考 察 了 多 媒体 流 的 覆盖 网 
支持 。 


4.5.2 Skype. 一 个 覆盖 网 络 的 例子 


Skype 是 一 个 对 等 应 用 , EP 上 提供 语音 电话 服务 (Voice over IP，VolP)。 它 也 包括 通过 Skypeln 
和 SkypeOut 提供 即时 消息 、 视 频 会 议和 标准 电话 服务 的 接口 。 该 软件 由 Kazaa 在 2003 年 开发 ， 因 此 共 
享 了 Kazaa 对 等 文件 共享 应 用 的 许多 特征 Leibowitz et al. 2003] 。 该 软件 被 广泛 地 部 署 ， 在 2009 年 年 
初 估计 有 3.7 亿 用 户 。 

Skype 是 一 个 在 实际 〈 和 大 规模 ) 的 系统 中 研究 覆盖 网 使 用 的 极 好 的 实例 ， 在 不 修改 互联 网 核心 
体系 结构 的 前 提 下 ， 它 能 展示 如 何以 应 用 特定 的 方式 提供 高 级 功能 。Skype 是 一 个 虚拟 网 络 ， 因 为 它 建 
立 了 人 们 ( 指 Skype 当前 活跃 的 订阅 者 ) 之 间 的 连接 。 建 立 一 个 呼叫 无 需 IP 地 址 或 端口 。 支 持 Skype 
的 虚拟 网 络 的 体系 结构 没有 被 广泛 地 公布 ， 但 研究 者 通过 不 同 的 方法 来 研究 Skype， 包 括 流量 分 析 ， 现 
在 它 的 原理 是 公开 的 。 下 面 的 许多 细节 描述 来 自 Baset 和 Schulzrinne[2006] 的 论文 ， 其 中 包含 了 对 
Skype 行为 的 详细 研究 。 

Skype 体系 结构 ”Skype 基于 对 等 基础 设施 ， 由 普通 用 户 的 机 器 〈 称 为 宿主 机 ) 和 超级 结 点 组 成 ， 
超级 结 点 是 正好 有 足够 的 能 力 完成 其 增强 角色 的 普通 Skype 宿主 机 。 超 级 结 点 基于 一 系列 标准 ， 包 括 
可 用 的 带宽 、 可 达 性 〈 例 如 ， 机 器 必须 有 一 个 全 局 的 下 地 址 ， 不 能 隐藏 在 一 个 具有 NAT 功能 的 路 由 
器 之 后 ) 和 可 用 性 (基于 Skype 已 经 在 那个 结 点 上 持续 运行 的 时 间 长 度 ) ， 这 些 超级 结 点 是 按 需 选择 出 
来 的 。 图 4-16 给 出 了 其 整体 结构 。 
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图 4-16 Skype 覆盖 网 体系 结构 

HAER Skype 用 户 通过 一 个 众所周知 的 登录 服务 器 进行 认证 。 接 着 他 们 可 以 与 一 个 选中 的 超 
级 结 点 连接 。 为 了 实现 这 一 点 ， 每 个 客户 维护 一 个 缓存 ， 用 于 存放 超级 结 点 标识 (B IP 地 址 和 端口 
对 ) 。 在 第 一 次 登录 时 ， 该 缓存 被 写 人 大 约 7 个 超级 结 点 的 地 址 ， 随 着 时 间 的 推移 ， 用 户 可 以 创建 和 维 
护 一 个 更 大 的 缓存 集 (也 许 包含 几 百 个 地 址 ) 。 

用 户 搜索 ”超级 结 点 的 主要 目的 是 完成 对 用 户 全 局 索引 的 搜索 ， 该 索引 分 布 在 超级 结 点 上 。 整 个 
搜索 由 客户 所 选中 的 超级 结 点 进行 协调 ， 会 涉及 扩展 到 其 他 超级 结 点 的 搜索 ， 直 到 找到 所 指定 的 用 户 。 
平均 来 看 ， 要 与 8 个 超级 结 点 相 接触 。 典 型 地 ， 一 个 用 户 搜索 花 三 四 秒 完成 寻找 拥有 全 局 下 地 址 的 宿 
主机 〈 如 果 用 户 在 一 个 具有 NAT 功能 的 路 由 器 之 后 ， 可 能 需要 稍 长 些 时 间 ， 大 约 为 5 ~6 秒 ) 。 从 实验 
来 看 ,搜索 所 涉及 的 中 间 结 点 通过 缓存 结果 可 以 提高 性 能 。 

声音 连接 ”一旦 发 现 了 所 请 求 的 用 户 ，Skype 就 在 双方 之 间 建 立 一 个 声音 连接 ， 用 TCP 触发 呼叫 请 
求 和 呼叫 终止， 用 UDP 或 TCP 传输 流 或 音频 。UDP 优先 , 但 TCP 以 及 中 间 结 点 被 用 于 某 些 环境 以 绕 开 
防火 墙 (细节 见 Baset 和 Schulzrinne[ 2006] ) 。 用 于 编码 和 解码 音频 的 软件 在 使 用 Skype 提供 的 优质 的 呼 
叫 质量 方面 扮演 了 关键 的 角色 ， 相 关 的 算法 被 小 心地 裁剪 以 便 在 32kbps 及 以 上 的 互联 网 环境 中 运行 。 


4.6 实例 研究 ，MPI 


4.2. 1 节 介 绍 了 消息 传递 ， 概 述 了 在 两 个 进程 之 间 用 send 和 receive 操作 交换 消息 的 基本 原理 。 消 
息 传 递 的 同步 版 本 用 阻塞 的 send 和 receive 调用 实现 ， 而 异步 版 本 要 求 用 send 的 非 阻 塞 形式 。 最 终结 
果 是 一 个 轻 量 、 有 效 且 在 很 多 方面 最 小 的 分 布 式 编程 模式 范例 。 

这 种 分 布 式 编程 的 风格 在 性 能 为 先 的 系统 ， 尤 其 在 高 性 能 计算 中 是 有 吸引 力 的 。 本 节 给 出 消息 传 
递 接口 (MPI) 标准 的 一 个 实例 研究 ， 该 接口 标准 是 由 高 性 能 计算 社团 开发 的 。MPI 于 1994 年 由 MPI 
论坛 [www. mpi-form. org] 引入 ， 作 为 对 这 个 领域 大 量 用 于 消息 传递 的 专 有 方法 的 反击 。 该 标准 在 网 
RHA 〈 参 见 第 9 章 的 讨论 ) 中 也 具有 很 大 的 影响 力 ， 例 如 ， 通 过 GridMPI [ www. gridmpi. org] 的 开 
发 。MPI 论坛 的 目标 是 保持 消息 传递 方法 内 在 的 简单 性 、 实 用 性 和 有 效 性 ， 通 过 给 出 独立 于 操作 系统 
或 特定 编程 语言 套 接 字 接 口 的 标准 化 接口 ， 提 高 其 可 移植 性 。MPI 被 设计 成 具有 灵活 性 ， 结 果 是 形成 
了 消息 传递 所 有 变种 (超过 115 个 操作 ) 的 一 个 全 面 的 规范 。 应 用 程序 通过 适用 于 大 多 数 操作 系统 和 
编程 语言 (包括 C++ 和 Fortran) 的 一 个 消息 传递 库 使 用 MPI 接口 。 

MPI 底层 的 体系 结构 模型 相对 简单 ， 如 图 4-17 所 示 。 它 类 似 于 4.2.1 节 介 绍 的 模型 ， 但 在 发 送 方 
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和 接收 方 显 式 地 加 入 了 MPI 库 缓冲 区 ， 这 些 缓冲 区 由 MPI 库 管 理 并 用 于 在 传送 时 保留 数据 。 注 意 ， 这 
个 图 给 出 了 从 发 送 者 通过 接收 者 的 MPI 库 缓冲 区 到 接收 者 的 单 向 示意 图 (也 可 以 使 用 发 送 者 的 MPI E 
缓冲 区 ) 。 





图 4-17 MPI 点 到 点 通信 概览 


为 了 感受 这 种 复杂 性 ， 我 们 看 一 下 图 4-18 总 结 的 各 种 send 变种 。 它 是 对 4. 2. 1 节 给 出 的 消息 传 
递 视图 的 细 化 ， 提 供 了 更 多 的 选择 和 控制 ， 并 有 效 区 分 了 同步 /异步 、 阻 塞 / 非 阻塞 消息 传递 语义 。 


[_send 操 作 [ m ” 密 TE 


通用 的 。 |  MPLSend: 发 送 者 被 阻塞 直到 操作 安全 返 MPI_Isend; 调用 马上 返回 ， 提 供给 程序 员 一 个 
回 ， 也 就 是 说 ， 直 到 消息 在 传送 中 或 已 传递 ， | 通信 请 求 句柄 ， 利 用 该 句柄 可 通过 MPI Wait 或 














因此 发 送 者 应 用 缓冲 区 可 以 被 重用 MPI_Test 检查 调用 的 进展 

同步 的 MPI_Ssend: 发 送 者 和 接收 者 同步 ， 该 调用 MPI_Issend: 类 似 MPI_Isend， 但 用 MPI_ Wait 
仅 在 消息 被 传递 到 接收 端 时 返回 或 MPI_Test 可 查 明 消息 是 否 被 传递 到 接收 端 

带 缓冲 的 MPI_Bsend; 发 送 者 显 式 地 分 配 MPI 缓冲 区 MPI_Ibsend: 类 似 MPI_Isend, 但 用 MPI_ Wait 
库 〈 用 一 个 单独 的 MPI_Buffer_attach 调用 )， 或 MPI_Test 可 查 明 消息 是 否 被 拷贝 到 发 送 者 的 
当 数 据 被 成 功 拷贝 到 这 个 缓冲 区 时 该 调用 返回 MPI 缓冲 区 ， 也 就 是 在 传送 中 

准备 好 的 MPI_Rsend， 与 MPI_Send 类 似 ， 当 发 送 者 MPI_Isend; 效果 类 似 MPI_Isend， 但 与 MPI_ 


的 应 用 缓冲 区 能 被 重用 时 ， 该 调用 返回 ， 但 程 Rsend 一 样 ， 程 序 员 能 向 底层 的 实现 指出 接收 者 
序 员 也 能 向 库 指出 接收 者 已 准备 好 接收 该 消 能 被 保证 准备 好 接收 数据 〈 这 将 导致 相同 的 


息 ， 这 样 能 潜在 优化 底层 的 实现 优化 ) | 


图 4-18 MPI 中 的 部 分 send 操作 


我 们 首先 查看 图 4-18 相关 列 给 出 的 四 个 阻塞 操作 。 理 解 这 组 操作 的 关键 是 领会 阻塞 被 解释 成 “ 阻 
塞 直到 操作 安全 返回 ” ， 它 的 含义 是 应 用 数据 已 经 被 拷贝 到 MPI 系统 ， 因 此 数据 是 在 传送 中 或 已 传递 ， 
因此 ， 应 用 缓冲 区 能 被 〈 例 如 ， 下 一 个 send RE) 重用 。 这 引发 “安全 返回 ”的 多 种 解释 。MPI_Send 
操作 是 一 个 通用 的 操作 ， 仅 要 求 提 供 这 个 层次 的 安全 (实际 上 ， 它 经 常用 MPI_Ssend 来 实现 ) MPI 
Ssend 与 4. 2. 1 节 介 绍 的 同步 (阻塞 ) 消息 传递 是 一 样 的 ， 其 “安全 ”被 解释 成 “已 传递 ” 。 但 MPI 
Bsend 有 更 弱 的 语义 ， 是 因为 当 消 息 已 经 被 拷贝 到 预 分 配 的 MPI 库 缓 冲 区 并 且 还 在 传送 中 时 ， 该 消息 
才 被 认为 是 安全 的 。MPI_Rsend 是 一 个 相当 奇妙 的 操作 ， 程 序 员 指明 他 们 知道 接收 者 准备 好 接收 消息 。 
如 果 这 是 已 知 的 ， 那 么 底层 的 设计 能 被 优化 ， 因 为 不 需要 检查 是 否 有 缓冲 区 可 用 于 接收 消息 ， 避 免 了 
“握手 ”确认 。 这 是 相当 危险 的 操作 ， 如 果 “ 准 备 好 ”这 个 假设 不 成 立 ， 那 么 该 操作 会 失败 。 在 
图 4-18 中 ， 可 能 观察 到 非 阻塞 操作 的 对 称 优 美 ， 这 次 是 定义 在 相关 的 MPI_Wait 和 MPI_Test 操作 的 语 
ME (注意 ， 也 是 用 对 所 有 操作 的 一 致命 名 约定 ) 。 

该 标准 也 支持 阻塞 接收 和 非 阻塞 接收 〈 分 别 用 MPI_recv 和 MPI_Irecv) ， 发 送 和 接收 的 变种 在 任 一 
组 合 中 成 对 出 现 ， 从 而 给 程序 员 在 消息 传递 语义 方面 提供 了 多 种 控制 。 此 外 ， 该 标准 定义 了 多 种 多 路 
通信 的 模式 〈 称 为 群 通信 ) ， 例 如， 包括 散布 (一 对 多 ) 和 聚集 〈 多 对 一 ) 操作 。 


4.7 小 结 
4.1 节 说 明了 互联 网 协议 提供 了 两 个 协议 构造 成 分 ， 在 这 两 个 协议 之 间 存 在 一 种 有 趣 的 权衡 : UDP 
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提供 了 一 个 简单 的 消息 传递 设施 ， 它 存在 遗漏 故障 但 没有 内 在 的 性 能 障碍 。 另 一 方面 ，TCP 可 以 保证 
消息 传递 ， 但 需要 以 额外 的 消息 、 高 延迟 和 存储 开销 作为 代价 。 

4.2 节 给 出 了 三 种 可 选编 码 风格 。CORBA 和 它 的 前 身 采 用 的 编码 数据 的 方式 要 求 接收 者 具有 各 个 
成 分 类 型 的 先 验 知识 。 相 反 ， 当 Java 序列 化 数据 时 ， 它 包括 了 关于 数据 内 容 类 型 的 所 有 信息 ， 人 允许 接 
收 方 根据 内 容重 构 数 据 。XML 类 似 Java， 包 含 了 所 有 类 型 信息 。 另 一 个 大 的 区 别 是 CORBA 需要 针对 
要 编码 的 数据 项 类 型 的 规约 (用 IDL) ， 以 便 生成 编码 和 解码 的 方法 ， 而 Java 使 用 反射 来 序列 化 对 象 并 
解 序列 化 它们 的 串 行 格式 。 生 成 XML 可 采用 许多 不 同 的 手段 ， 这 取决 于 上 下 文 。 例 如 ， 许 多 编程 语言 
(包括 Java) 提供 了 在 XML 和 语言 级 对 象 之 间 进 行 转换 的 处 理 器 。 

组 播 消息 用 于 进程 组 成 员 之 间 的 通信 。 了 正 组 播 提 供 了 一 个 既 可 用 于 局 域 网 又 可 用 于 互联 网 的 组 播 
服务 。 这 种 形式 的 组 播 与 UDP 数据 报 具 有 相同 的 故障 语义 ， 尽 管 会 有 遗漏 故障 ， 它 对 许多 组 播 应 用 而 
言 仍 是 一 个 有 用 的 工具 。 其 他 一 些 应 用 有 更 高 的 需求 一 特别 是 ， 组 播 传递 应 该 是 原子 的 ， 即 它 应 该 
具有 全 部 传递 或 全 部 不 传递 的 性 质 。 组 播 的 进一步 需求 与 消息 的 顺序 有 关 ， 最 严格 的 需求 是 组 的 所 有 
成 员 都 要 按 相 同 的 顺序 接收 所 有 消息 。 

覆盖 网 络 在 某 些 情形 下 支持 组 播 但 不 支持 卫 组 播 。 通 常 ， 覆 盖 网 络 提供 网 络 架 构 虚 拟 化 服务 ， 这 
就 允许 专用 网 络 服务 可 以 在 底下 层 网 络 (例如 ，UDP 或 TCP) 基础 设施 上 创建 。 通 过 产生 更 多 的 应 用 
特定 的 网 络 抽象 ， 履 盖 网 络 部 分 解决 了 与 Saltzer 的 端 到 端 争论 有 关 的 问题 。 

本 章 最 后 给 出 了 MPI 规范 的 一 个 实例 研究 ， 它 是 由 高 性 能 计算 社区 开发 的 ， 具 有 灵活 支持 消息 传 
递 和 多 路 消息 传递 的 特性 。 





练习 

4.1 一 个 端口 有 几 个 接收 者 时 有 哪些 好 处 ? (第 148 页 ) 

4.2 ”服务 器 创建 了 一 个 端口 ， 用 于 从 客户 端 接收 请 求 。 讨 论 有 关 端 口 名 字 和 客户 使 用 的 名 字 之 间 关 系 的 设 
计 问 题 。 (第 148 页 ) 


4.3 图 4-3 和 图 4-4 中 的 程序 可 从 www. cdk5. net/ipe 下 载 ， 用 它们 制作 一 个 测试 包 来 确定 数据 报 被 丢弃 的 
条 件 。 提 示 : 客户 程序 应 该 能 改变 发 送 消息 的 个 数 和 它们 的 大 小 ; 来 自 某 个 特定 客户 的 消息 如 果 丢 
R, 服务 器 应 该 能 检测 到 。 (第 150 页) 
4.4 利用 图 4-3 中 的 程序 制作 一 个 客户 程序 ， 让 它 反复 地 从 用 户 处 读 取 输入 ， 并 用 UDP 数据 报 消息 把 这 
些 内 容 发 送 到 服务 器 ， 接 着 从 服务 器 接收 一 条 消息 。 客 户 程序 在 它 的 套 接 字 上 设置 超时 ， 以 便 在 服务 
器 没有 应 答 时 能 通知 用 户 。 用 图 4-4 中 的 服务 器 程序 测试 该 客户 程序 。 (3% 150 页 ) 
4.5 图 4-5 和 图 4-6 中 的 程序 可 从 www. cdk5. net/ipe 获得 。 修 改 程序 以 便 客 户 能 反复 读 取 用 户 输 人 并 将 它 
写 到 流 中 ; 服务 器 反复 地 从 流 中 读 取 内 容 ， 并 将 每 次 读 取 的 结果 打印 出 来 。 比 较 用 UDP 数据 报 发 送 


数据 和 在 流 上 发 送 数 据 。 (第 153 页 ) 

4.6 用 练习 4.5 开发 的 程序 测试 接收 方 甬 溃 时 发 送 方 的 结果 ， 以 及 发 送 方 裔 溃 时 接收 方 的 情况 。 
(第 153 页 ) 
4.7 Sun XDR 在 传输 前 将 数据 编码 成 标准 的 大 序 法 格式 。 与 CORBA 的 CDR 比较 ， 讨 论 这 种 方法 的 好 处 和 
不 足 。 (第 160 页 ) 
4.8 Sun XDR 在 每 个 简单 类 型 值 上 进行 4 字 节 边界 对 齐 ， 而 CORBA CDR 对 一 个 大 小 为 n 字 节 的 简单 类 型 
在 = 字 节 边界 对 齐 。 讨 论 在 选择 简单 类 型 值 占据 的 大 小 应 做 出 的 权衡 。 (第 160 TL) 
4.9 ”为 什么 在 CORBA CDR 中 没有 显 式 的 数据 类 型 ? (第 160 页 ) 


4.10 ”用 伪 代 码 写 一 个 算法 介绍 4.3.2 节 中 介绍 的 序列 化 程序 。 算 法 应 该 给 出 类 和 实例 的 句柄 被 定义 或 赫 
， 换 的 时 间 。 描 述 在 对 类 Couple 的 实例 进行 序列 化 时 ， 你 的 算法 应 该 生成 的 序列 化 格式 。 (第 162 页 ) 


class Couple implements Serializable{ 
private Person one; 
private Person two; 
public Couple(Person a, Person b) { 
one = a; 
two = b; 


} 
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用 伪 代 码 写 一 个 算法 描述 由 练习 4.10 定义 的 算法 产生 的 序列 化 格式 的 解 序列 化 过 程 。 提 示 : 使 用 反 
St, 根据 它 的 名 字 创 建 一 个 类 ， 根 据 它 的 参数 类 型 创建 构造 函数 ， 根 据 构 造 号 数 和 参数 值 创 建 对 象 


的 新 实例 。 (第 162 页 ) 
为 什么 在 XML 中 不 能 直接 表示 二 进 制 数据 ， 例 如 ， 表 示 成 Unicode 字 节 值 ? XML 元 素 能 携带 表示 成 
base64 的 串 。 讨 论 用 这 种 方法 表示 二 进 制 数据 的 好 处 或 不 足 。 (第 164 页 ) 


定义 一 个 用 它 的 实例 表示 远程 对 象 引 用 的 类 。 它 应 该 包含 类 似 图 4-13 所 示 的 信息 ， 应 该 提供 高 层 协 
议 所 需 的 访问 方法 (例如 ,第 5 章 中 的 请 求 - 应 答 协议 ) 。 解 释 每 个 访问 方法 如 何 被 协议 使 用 。 对 
包含 远程 对 象 接口 信息 的 实例 变量 ,解释 其 类 型 选择 。 (第 168 页 ) 
PP 组 播 提供 一 种 有 遗漏 故障 的 服务 。 可 以 参见 图 4-14 制作 一 个 测试 包 ， 看 一 下 在 什么 情况 下 ， 一 个 
组 播 消 息 可 能 被 组 播 组 的 一 个 成 员 竺 弃 ? 这 个 包 应 该 设计 为 允许 有 多 个 发 送 进程 的 情况 。 

(第 170 页 ) 
概述 一 个 设计 模式 : 使 用 消息 重 传 机 制 的 全 组 播 来 克服 消息 丢失 的 问题 。 你 的 设计 模式 应 该 考虑 以 
下 几 点 : 
i) 可 以 有 多 个 发 送 者 ; 
让》 通常 只 丢失 消息 的 一 小 部 分 ， 
ii) 接收 者 没 必要 在 一 定时 间 限 制 内 发 送 消 息 。 


假设 未 丢失 的 消息 按 发 送 者 顺序 到 达 。 (第 173 页 ) 
练习 4. 15 的 解决 方案 应 该 克服 了 消息 于 失 的 问题 。 在 哪 种 情况 下 你 的 解决 方案 和 可 靠 组 播 还 是 有 区 
别 的 ? (第 173 页 ) 


设计 一 个 场景 : 不 同 的 客户 发 送 组 播 消息 ， 并 以 不 同 顺序 传送 到 两 个 组 成 员 。 假 设 使 用 了 茶 种 形式 
的 消息 重 传 机 制 ， 消 息 没有 丢失 并 以 发 送 方 的 顺序 到 达 。 接 收 方 如 何 修复 该 问题 ? (第 173 页 ) 
回顾 一 下 第 3 章 (3-12, 图 3-14) 介绍 的 互联 网 结构 。 履 盖 网 络 的 引 和 人 对 这 种 结构 会 产生 什么 影 
响 ? 尤其 对 编程 者 的 互联 网 结构 的 概念 有 什么 影响 ? (第 175 页 ) 
在 Skype 中 采用 了 超级 结 点 的 方法 ， 它 的 主要 参数 是 什么 ? (第 177 页 ) 
在 4.6 节 中 MPI 提供 了 许多 不 同 的 send 操作 (包括 MPL_ Rsend 操作 ) ， 前 提 是 假设 接收 方 已 经 准备 
好 在 发 送 时 间 内 接收 数据 。 如 果 这 个 假设 成 立 ， 有 什么 好 的 实现 方法 吗 ? 如 果 不 成 立 ， 又 会 怎样 ? 
(第 180 页) 
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本 章 将 逐步 介绍 第 2 章 引 人 的 远程 调用 范 型 〈 第 6 章 介绍 间接 通信 技术 ) 。 本 章 从 检查 最 基本 的 服 
务 、 请 求 -应 答 通信 开始 ， 它 是 对 第 4 章 所 讨论 的 进程 间 通 信 的 小 改进 。 然 后 介绍 分 布 式 系统 通信 的 
两 个 最 主要 的 远程 调用 技术 : 
。 远程 过 程 调用 (RPC) ，RPC 将 过 程 调 用 的 通用 编程 抽象 扩展 到 了 分 布 式 环境 。 一 个 调用 过 程 
可 以 像 调用 本 地 结 点 上 的 过 程 那样 去 调用 一 个 远程 结 点 上 的 过 程 。 
。 远程 方法 调用 (RMI), RM 和 远程 过 程 调用 相似 ， 不 同 的 是 前 者 因为 以 下 功能 而 更 有 优势 ; 
在 分 布 式 系统 中 使 用 了 面向 对 象 的 编程 概念 ， 把 对 象 引 用 扩展 到 全 局 分 布 式 环境 中 ， 因 此 在 远 
程 调用 中 可 以 把 对 象 引用 作为 参数 。 
本 章 也 以 Java RM 为 主要 特色 的 远程 方法 调用 作为 案例 研究 (在 第 8 章 介 绍 CORBA 时 ， 会 有 更 
多 的 体会 )。 


5.1 简介 
本 章 关注 在 分 布 式 系统 中 进程 〈 或 者 是 抽象 层次 比较 高 的 实体 ， 如 对 象 和 服务 ) 如 何 通信 ， 尤 其 
关注 在 第 2 章 中 定义 的 远程 调用 范 型 
© 请求- 应答 协 议 描 述 了 一 个 基于 消息 传递 的 范 型 ， 该 协议 支持 在 客户 /服务 器 计算 中 遇 到 的 消 
息 双 向 传输 。 尤 其 是 此 类 协议 为 远程 操作 的 执行 请 求 提供 了 相关 的 底层 支持 ， 同 时 提供 了 对 
RPC 和 RMI 的 直接 支持 ， 下 面 讨论 它们 。 
。 最 早 的 、 可 能 也 是 最 为 人 们 所 熟知 的 程序 员 友 好 模型 示例 就 是 将 传统 的 过 程 调用 模型 扩展 到 分 
布 式 系统 (远程 过 程 调用 ,或 RPC， 模型) 。 远 程 过 程 调用 模型 允许 客户 程序 透明 地 调用 在 服务 
器 程序 中 的 过 程 ， 而 这 些 服务 器 程序 运行 在 不 同 的 进程 中 ， 通 常 位 于 不 同 于 客户 端的 计算 机 中 。 
o 20 世纪 90 年 代 ， 基 于 对 象 的 编程 模型 被 扩展 ， 允 许 不 同 进程 运行 的 对 象 通过 远程 方法 调用 
(Remote Method Invocation, RMI) 彼此 通信 。RMI 是 对 本 地 方法 调用 的 扩展 ， 它 允许 一 个 进程 对 
象 调用 另外 一 个 进程 对 象 的 方法 。 
注意 ， 我 们 用 术语 “RMI” 指 普通 情形 中 的 远程 方法 调用 ， 不 应 该 与 远程 方法 调用 的 某 些 特例 〈 如 
Java RMI) 相 混淆 。 
本 章 从 图 5-1 开始 (参见 第 4 章 ) ， 连 同 第 6 章 ， 继 续 学 习 中 间 件 概念 ， 着 重 学 习 进 程 通信 。 具 体 来 
说 ， 从 5.2 节 到 5.4 节 着 重 上 述 列 出 的 诸多 通信 形式 ，5. 5 节 给 出 一 个 更 复杂 的 实例 ， 即 Java RMI, 
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5.2 请求- 应答 协议 
这 种 通信 设计 用 于 支持 典型 客户 /服务 器 交互 中 角色 和 信息 的 转换 。 通 常情 况 下 ， 请 求 - 应答 通信 
是 同步 的 ， 在 来 自 服务 器 端的 应 答 到 达 之 前 客户 端 进程 是 阻塞 的 。 它 也 是 可 靠 的， 因为 从 服务 器 端的 
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应 答 是 对 客户 端 进程 的 一 个 有 效 的 确认 ， 因 此 也 是 可 靠 的 。 蜡 步 的 请 求 -应 答 通信 是 可 选择 的 ， 这 种 
方式 可 能 在 客户 允许 检索 应 答 延 迟 的 情况 下 是 有 用 的 〈 见 7.5.2 节 ) 。 

尽管 目前 很 多 客户 -服务 器 交换 的 实现 采用 的 是 TCP 流 的 形式 ， 但 在 接 下 来 介绍 的 客户 - 服务 器 
交换 实现 是 通过 在 Java UDP 数据 报 API PARI (send) 和 接收 (receive) 操作 来 描述 的 。 建 立 在 数 
据 报 上 的 协议 避免 了 像 TCP 流 协议 那样 不 必要 的 开销 。 尤 其 是 : 

。 因为 应 答 紧 跟 在 请 求 之 后 ， 所 以 确认 是 多 余 的 。 

。 一 个 连接 的 建立 除了 需要 一 对 请 求 和 应 答 之 外 还 涉及 两 对 额外 的 消息 。 

。 对 于 大 部 分 只 有 少数 的 参数 和 结果 的 调用 来 说 ， 流 控制 是 多 余 的 。 

请 求 - 应 答 协议 ”该 协议 基于 三 个 通信 原 语 : doOperation、getRequest、sendReply， 如 图 5-2 所 示 。 
该 请 求 - 应答 协 议 将 请 求 和 应 答 进 行 匹配 ， 用 于 提供 传输 保证 。 如 果 使 用 UDP 数据 报 ， 那 么 就 必须 通 
过 请 求 -应 答 协议 提供 传输 保证 。 该 协议 可 将 服务 器 的 应 答 消息 作为 客户 端 请 求 消息 的 确认 。 图 5-3 
概括 描述 了 这 三 个 通信 原 语 。 

客户 服务 器 






getRequest 
选择 操作 
执行 操作 
SendReply 










5-2 请 求 -应 答 通信 





public byte[] doOperation (RemoteRef s, int operationld, byte[] arguments) 
发 送 请 求 消息 到 远程 服务 器 并 返回 应 管 。 
参数 指定 远程 服务 器 、 待 调用 操作 及 该 操作 的 参数 。 
public byte[] getRequest 0; 
通过 服务 器 的 端口 获取 一 个 客户 端的 请 求 。 
public void sendReply (byte[] reply, InetAddress clientHost, int clientPort); 
发 送 应 管 消息 到 指定 IP 地 址 和 端口 地 址 的 客户 。 


图 5-3 ”请求 - 应 答 协议 操作 
客户 使 用 doOperation 方法 来 调用 远程 操作 ， 方 法 参数 指定 远程 服务 器 、 待 调用 的 操作 以 及 操作 请 求 的 









[187] 附加 信息 (参数 )。 其 结果 是 包含 应 答 内 容 的 字 节 数组 。 调 用 doOperation 方法 的 客户 将 参数 编码 (marshal) 
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进 一 个 字 节 数组 ， 并 从 返回 的 字符 数组 中 解码 (unmarshal) 出 结果 。doOperation 方法 的 第 一 个 参数 是 类 Re- 
moteRef 的 一 个 实例 ， 这 个 实例 描述 了 远程 服务 器 的 一 个 引用 。 该 类 提供 了 获取 相关 服务 器 的 互联 网 地 址 和 
端口 号 的 方法 。doOperation 方法 向 某 个 服务 器 发 送 请 求 信息 ， 该 服务 器 的 网 络 IP 地 址 、 端 口号 在 以 参数 形 
式 出 现 的 远程 引用 中 指定 。 在 发 送 请 求 消息 之 后 ，doOperation 方法 通过 调用 receive 方法 接收 应 答 消 息 ， 并 
从 应 答 信息 中 提取 结果 ， 并 把 结果 返回 给 调用 者 。doOperation 方法 的 调用 者 在 服务 器 执行 所 请 求 的 操作 和 传 
输 应 答 信息 给 客户 端 进程 之 前 是 阻塞 的 。 





服务 器 进程 通过 getRequest 方法 获得 请 求 消息 ， 如 ee ee Pe 
图 5-3 所 示 。 当 服务 器 调用 了 指定 的 操作 时 ， 它 会 通过 sen- = 

dReply 方法 向 客户 发 送 应 答 消息 。 当 客户 端 接收 到 应 答 消 TmoweRelerence 远程 对 象 引用 

息 时 ， 原 来 的 do0pration 方法 就 会 解除 阻塞 , 客户 端 进程 So O ee 


继续 执行 。 wo oo 
在 请 求 消息 和 应 答 消息 中 传递 的 信息 格式 如 图 5-4 所 图 5-4 RAC 
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示 。 第 一 部 分 显示 消息 是 请 求 消息 还 是 应 答 消 息 。 第 二 部 分 包含 一 个 信息 标识 符 ， 即 requestld, FF 
的 doOpration 方法 为 每 个 请 求 消息 生成 一 个 requestId， 服 务 器 进程 则 将 这 些 ID 复制 到 对 应 的 应 答 消息 
中 。 这 样 doOpration 方法 可 以 检查 一 个 应 答 消 息 是 当前 请 求 消息 的 结果 ， 而 不 是 更 早 的 请 求 消息 的 延 
迟 结果 。 第 三 部 分 是 远程 引用 。 第 四 部 分 是 被 调用 操作 的 标识 符 。 例 如 ， 接 口中 的 操作 通过 数字 标识 ， 
如 1，2，3，…， 如 果 客 户 和 服务 器 都 使 用 支持 反射 的 通用 语言 ， 那 么 操作 本 身 的 描述 就 可 能 放 人 这 
一 部 分 。 

消息 标识 符 ”如 果 需 要 提供 类 似 于 可 靠 消息 传递 或 请 求 - 应 答 通信 等 额外 特性 ， 那 么 任何 消息 管 
理 方 案 都 会 要 求 每 一 个 消息 必须 有 唯一 的 消息 标识 符 。 通 过 消息 标识 符 才 可 以 引用 消息 。 消 息 标识 符 
由 两 部 分 组 成 ， 

1) requestId， 发 送 进程 从 一 个 长 度 不 断 增 加 的 整数 序列 获取 requestId; 

2) 发 送 若 进程 的 标识 符 ， 如 它 的 端口 号 和 互联 网 地 址 。 

其 中 ， 第 一 部 分 使 该 标识 符 对 于 发 送 者 来 说 是 唯一 的 ， 而 第 二 部 分 则 使 其 在 分 布 式 系统 中 是 唯一 
的 (第 二 部 分 可 独立 获取 一 一 例如 ， 使 用 UDP 时 ， 从 接收 到 的 消息 中 获取 ) 。 

当 requestld 的 值 达到 一 个 无 符号 整数 的 最 大 值 (如 2”-I) ， 它 重 置 为 0。 这 里 唯一 的 限制 是 消息 
标识 符 的 生命 周期 应 该 比 用 尽 整 数 序列 的 值 的 时 间 短 得 多 。 

WR - 应 答 协议 的 故障 模型 ”如果 doOperation, getRequest, sendReply 这 三 个 原 语 操作 基于 UDP 
数据 报 实现 ， 那 么 它们 会 遇 到 相同 的 通信 故障 ， 即 : 

。 存在 遗漏 故 麻 。 

。 没有 保证 消息 按照 其 发 送 顺序 进行 传输 。 

除 此 之 外 ， 该 协议 会 遇 到 进程 故障 问题 ( 见 2.4.2 节 ) 。 假 设 进 程 出 现 死机 故障 ， 也 就 是 说 ， 当 它 
们 停止 时 ， 则 不 会 产生 拜占庭 (Byzantine) 行为 。 

考虑 到 服务 器 故障 或 请 求 、 应 答 消 息 被 丢弃 的 情况 ，do0peration 方法 在 等 待 获取 服务 器 应 答 消 息 
时 使 用 超时 〈timeout) 。 当 出 现 超时 时 所 采取 的 方案 依赖 于 所 能 提供 传输 保证 。 

. 超时 ”超时 发 生 时 ，doOperation 方法 有 多 种 选择 。 最 简单 的 选择 就 是 立即 返回 给 客户 一 个 doOper- 
ation 发 生 故 障 的 标示 。 这 不 是 通常 的 方法 。 超 时 的 原因 可 能 是 请 求 或 应 答 消息 丢失 ， 对 于 后 者 该 操作 
将 被 执行 。 为 了 避免 消息 丢失 的 可 能 性 ，doOperation 方法 会 重复 地 发 送 请 求 消息 直到 它 收 到 应 答 ,， 或 
已 有 理由 相信 延迟 是 因为 服务 器 未 作 应 答 而 不 是 丢失 了 请 求 消息 。 最 终 ， 当 doOperation 方法 返回 时 ， 
会 以 未 接收 到 结果 的 异常 告诉 客户 。 

丢弃 重复 的 请 求 消息 ， 当 请 求 消息 重复 传输 时 ， 服 务 器 可 能 不 止 一 次 地 接收 到 该 消息 。 例 如 ， 服 
务 器 可 能 接收 第 一 个 请 求 消息 但 是 却 花 了 比 客户 的 超时 时 限 更 长 的 时 间 执 行 命令 和 返回 结果 。 这 就 导 
致 服务 器 为 同样 的 请 求 而 不 止 一 次 地 执行 某 个 操作 。 为 了 避免 这 种 情况 ， 该 协议 设计 能 识别 带 有 相同 
请 求 标识 符 的 连续 消息 (来自 同 一 客户 )， 并 过 滤 掉 重 发 的 消息 。 如 果 服 务 器 还 没有 发 送 应 答 消息 ， 
它 就 无 须 采取 特殊 行动 ， 在 执行 完 这 个 操作 时 传输 该 应 答 。 

丢失 应 答 消息 ”如果 当 服务 器 收 到 一 个 重复 的 请 求 消息 时 已 经 发 送 了 应 管 消息 ， 那 么 除非 它 保存 
了 原先 执行 的 结果 ， 否 则 它 需 要 再 次 执行 这 个 操作 来 获得 该 结果 。 一 些 服务 器 会 不 止 一 次 地 执行 它们 
的 操作 并 每 次 都 获得 相同 的 结果 。 一 个 需 等 操作 (idempotent operation) 指 的 是 ， 它 重复 执行 的 效果 与 
它 好 像 仅 执行 一 次 的 效果 相同 。 例 如 ， 向 集合 中 添加 一 个 元 素 的 操作 是 舌 等 操作 ， 因 为 它 每 次 的 执行 
对 于 集合 的 效果 是 一 样 的 。 然 而 ， 给 一 个 序列 添加 一 个 项 就 不 是 震 等 操作 ， 因 为 每 次 它 执行 都 扩展 了 
这 个 序列 。 如 果 一 个 服务 器 上 的 操作 都 是 备 等 操作 ， 那 么 就 没有 必要 去 采取 特殊 措施 避免 操作 的 多 次 
执行 。 

历史 。 对 于 要 求 重 新 传输 应 答 而 不 需要 重新 执行 操作 的 服务 器 来 说 ， 可 以 使 用 历史 。 术 语 “ 历 
史 ” 通 常 指 的 是 包含 已 发 送 的 〈 应 答 ) 消息 记录 的 结构 。 历 史 的 内 容 包 含 请 求 标识 符 、 消 息 和 消息 被 
发 送 到 的 客户 的 标识 符 。 其 目的 是 当 客 户 进程 请 求 服务 器 时 让 服务 器 重新 传输 应 答 消 息 。 和 历史 的 使 
用 相关 的 问题 是 它 的 内 存 开 销 。 如 果 服 务 器 不 能 确定 何 时 不 再 需要 重新 传输 消息 ， 那 么 历史 的 内 存 开 
销 将 会 变 得 很 大 。 
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由 于 客户 每 次 只 能 发 送 一 个 请 求 ， 服 务 器 可 以 将 每 个 请 求解 释 成 客户 对 上 一 次 应 答 消 息 的 确认 。 
因此 ， 历 史 中 只 需要 包含 发 送 给 每 个 客户 的 最 晚 的 应 答 消息 。 然 而 ， 当 服务 器 有 大 量 的 客户 时 ， 服 务 
器 历史 中 应 答 消息 的 容量 可 能 仍旧 是 一 个 问题 。 原 因 是 ， 当 客户 进程 终止 时 ， 它 不 会 为 它 所 接 到 的 最 
晚 的 应 答 消 息 发 送 应 答 确 认 ， 因 此 历史 中 的 消息 在 一 个 有 限 的 时 间 段 以 后 会 被 丢弃 。 

交互 协议 的 类 型 ”为 了 实现 多 种 类 型 的 请 求 行为 ， 可 以 使 用 三 种 协议 ， 能 够 在 出 现 通信 故障 时 产 
生 不 同 的 行为 。Spector[ 1982] 首先 确认 了 三 种 协议 : 

。 R (R) 协议 ; 

。 请 求 -应 答 (RR) 协议 ; 

。 请 求 -应答 -确认 应 答 (RRA) 协议 。 

图 5-5 中 总 结 了 这 些 协议 中 传输 的 消息 。 在 及 协议 中 ， 客 户 端 向 服务 器 端 发 送 一 个 单独 的 请 求 消 
息 。 这 个 协议 可 能 用 在 不 需要 从 远程 操作 返回 值 或 
客户 端 不 需要 得 到 远程 操作 执行 确认 的 情况 中 。 在 
请 求 发 送 后 ， 客 户 端 可 以 立即 继续 执行 而 无 须 等 等 
应 答 消 息 。 该 协议 是 基于 UDP 数据 报 实 现 的 ， 所 以 
有 可 能 遇 到 相同 的 通信 故障 。 

RR 协议 对 于 绝 大 多 数 客户 /服务 器 的 交互 是 有 图 5-5 RPC 交换 协议 
用 的 ， 因 为 它 是 基于 请 求 - 应 答 协 议 的 ， 不 要 求 特殊 的 确认 消息 ， 因 为 服务 器 的 应 答 消息 看 成 就 是 客 
户 端 请 求 消息 的 一 个 确认 。 相 似 的 ， 随 后 的 一 个 来 自 客户 的 调用 可 以 视 为 服务 器 应 答 消 息 的 一 个 确认 。 
像 我 们 看 到 的 那样 ， 因 UDP 数据 报 丢失 而 引起 通信 故障 可 以 通过 带 有 重新 过 滤 的 请 求 重 复 传输 和 在 重 

190] ”新 传输 的 历史 中 保存 应 答 消息 的 方式 进行 屏 项。 

RRA 协议 基于 三 种 消息 的 交互 : WR - 应 答 -确认 应 答 。 该 确认 应 答 消息 中 包含 了 来 自 于 被 确认 
的 应 答 消息 的 requestId。 这 使 服务 器 能 从 历史 中 删除 相应 的 条 目 。 对 于 到 达 的 确认 消息 中 的 requestld 
来 说 ， 它 被 视 为 在 所 有 的 requestld 中 比 其 更 小 的 应 答 消 息 的 确认 ， 所 以 确认 消息 的 丢失 不 会 造成 什么 
损失 。 尽 管 该 交互 过 程 涉及 附加 的 消息 ， 也 无 须 阻 塞 客 户 端 进程 ， 因 为 该 确认 可 能 在 向 客户 端 发 送 应 
管 之 后 才 传 输 的 。 然 而 它 没 有 用 到 进程 和 网 络 资源 。 练 习 5. 10 中 谈 到 了 关于 RRA 协议 的 优化 。 

请 求 - 应 答 协议 的 TCP 流 的 使 用 在 第 4.3.2 节 中 提 到 ， 接 收 数据 报 的 缓冲 区 合适 的 大 小 经 常 是 
很 难 确定 的 。 在 请 求 - 应 答 协议 中 ， 服 务 器 用 缓冲 区 来 接收 请 求 消息 ， 客 户 端 用 缓冲 区 来 接收 应 答 消 
息 。 因 为 过 程 的 参数 或 结果 可 能 是 任意 长 度 的 ， 所 以 认为 数据 报 长 度 的 限定 (通常 为 8Kb) 不 适应 于 
透明 RMI 或 RPC 系统 的 使 用 。 

实现 基于 TCP 流 的 请 求 - 应 答 协议 的 原因 之 一 是 期 望 避 免 实 现 多 包 协议 ， 因 为 TCP 流 可 以 传输 任 
意 长 度 的 参数 和 结果 。 尤 其 是 ，Java 对 象 序列 化 是 一 种 允许 在 客户 、 服 务 器 之 间 发 送 参 数 和 结果 的 流 
协议 。 该 协议 使 可 靠 地 传输 任意 长 度 的 对 象 集合 成 为 可 能 。 如 果 使 用 TCP 协议 ， 就 能 保证 可 靠 的 传输 
请 求 消息 和 应 答 消 息 ， 因 此 对 于 请 求 - 应 答 协 议 来 说 就 没有 必要 去 处 理 消息 的 重 传 、 重 复 消 息 的 过 滤 、 
历史 的 使 用 等 问题 。 另 外 ， 流 控制 机 制 可 以 传递 大 量 的 参数 和 结果 而 不 需 采用 特殊 措施 来 避免 大 规模 
的 接收 。 由 于 TCP 协议 简化 了 它们 的 实现 ， 所 以 把 它 用 于 请 求 - 应 答 协议 。 如 果 在 同一 对 客户 /服务 
之 间 基 于 同一 个 流连 续 地 发 送 相同 的 请 求 - 应 答 消息 ， 那 么 不 需要 在 每 次 远程 调用 上 都 有 连接 的 开销 。 
当 发 送 请 求 消息 后 不 久 收 到 应 答 消息 时 ，TCP 确认 消息 引起 的 开销 也 将 减少 。 

然而 ， 如 果 应 用 不 要 求 TCP 提供 的 所 有 机 制 ， 那 么 更 有 效 的 方法 是 ， 定 制 一 个 基于 UDP 实现 的 协 

191] 议 。 例 如 ， 因 为 SUN NFS 在 客户 、 服 务 器 之 间 传 输 固定 长 度 的 文件 块 ， 所 以 它 不 要 求 提供 对 发 送 无 限 
长 消息 的 支持 。 此 外 ， 把 它 的 操作 设计 成 寡 等 操作 ， 这 样 为 了 重 传 丢失 的 应 答 消息 而 多 次 执行 操作 也 
没有 关系 ， 同 时 也 没有 必要 去 维护 历史 。 

HTTP: 请 求 - 应 答 协 议 的 例子 第 1 章 中 介绍 了 用 于 从 客户 端的 浏览 器 向 服务 器 端 发 送 请 求 并 
接收 应 答 的 超 文 本 传输 协议 。 总 的 来 说 ，Web 服务 器 有 两 种 不 同 的 实现 管理 资源 的 方法 : 

© 数据 一 一 如 HTML 网 页 的 正文 或 图 片 或 面板 的 类 ; 

© 程序 一 一 如 servlets 或 者 PHP 或 运行 在 Web 服务 器 端的 Pychon 程序 。 
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客户 端 请 求 指定 一 个 包含 Web 服务 器 上 的 DNS 主机 名 和 在 Web 服务 器 上 选择 端口 的 URL 和 在 该 
服务 器 上 资源 的 标识 符 。 

HTTP 协议 指定 一 个 消息 ， 该 消息 涉及 请 求 - 应 答 交 互 、 方 法 、 参 数 、 结 果 及 将 它们 加 (编码) 
到 消息 中 的 规则 。 它 支持 一 个 固定 的 方法 集合 (GET, PUT, POST 等 ) ， 这 些 方 法 应 用 于 服务 器 上 的 
所 有 资源 。 它 不 像 先前 描述 的 协议 那样 ， 每 个 服务 都 有 自己 操作 的 集合 。 除 此 之 外 ， 针 对 于 Web 资源 
使 用 调用 方法 ， 该 协议 允许 内 容 协 商 和 密码 式 验证 : 

内 容 协商 (content negotiation): 客户 端 请 求 中 包含 说 明 他 们 能 够 接受 的 数据 表示 形式 的 信息 A 
如 语言 和 媒体 的 类 型 ) ， 使 服务 器 能 选择 出 对 于 客户 端 最 合适 的 数据 表示 形式 。 

WHE (authentication); 凭据 〈ceredential) 和 质询 (challenge) 用 于 密码 式 验证 ， 首 先 试图 去 访问 
受 密码 保护 的 区 域 时 ， 服 务 器 的 应 答 包 含 了 适用 于 资源 的 质询 。 第 11 章 中 解释 了 该 质询 ， 当 客户 端 接 
收 到 质询 ， 它 令 用 户 输入 的 用 户 各 和 密码 ， 并 提交 与 后 续 请 求 关联 的 凭据 。 

HTTP 基于 TCP 实现 。 在 该 协议 最 初版 本 中 ， 每 个 客户 /服务 器 交互 都 由 下 面 的 步 又 组 成 

。 客户 端 请 求 〈 连 接 ) ， 而 服务 器 在 一 个 默认 端口 或 URL 指定 的 端口 接受 连接 。 

。 客户 端 向 服务 器 发 送 请 求 消息 。 

© 服务 器 向 客户 端 发 送 应 答 。 

。 连接 断 开 。 

然而 ， 对 于 每 个 请 求 -应答 交 互 都 建立 、 疡 开 连 接 的 高 昂 代 价 ， 这 会 造成 服务 器 超载 以 及 引起 太 
多 的 消息 通过 网 络 进行 发 送 。 注 意 ， 浏 览 器 一 般 会 向 相同 服务 器 发 送 多 个 请 求 。 例 如 ， 在 该 协议 较 晚 
的 版 本 (HTTP1. 1， 见 RFC 2616[ Fielding et al. 1999 ] ) 使 用 持久 连接 来 获取 页 面 中 的 图 片 。 在 持久 连 
接 中 ,客户 /服务 器 维持 一 系列 的 请 求 - 应 答 交 互 ， 可 以 在 任何 时 候 通过 客户 端 或 服务 器 端 向 另 一 个 参 
与 者 发 送 指示 来 断 开 一 个 持久 连接 。 如 果 服 务 器 有 一 段 时 间 处 于 空闲 状态 ， 那 么 该 持久 连接 将 会 断 开 。 
但 是 在 服务 器 指示 连接 断 开 和 客户 端 接收 到 这 个 指示 期 间 ， 客 户 端 可 能 发 送 了 其 他 的 一 个 或 多 个 请 求 。 
在 这 种 状况 下 ， 如 果 涉 及 的 操作 是 宕 等 操作 ， 那 么 浏览 器 会 重新 发 送 请 求 而 无 需 用 户 干预 。 例 如 ， 下 
面 描述 的 CET 方法 是 睡 等 操作 。 当 涉及 的 操作 不 是 短 等 操作 时 ,浏览 器 应 该 询问 用 户 下 一 步 该 做 
什么 。 

请 求 和 应 答 以 ASCI 字符 串 的 形式 被 编码 进 消息 。 但 是 资源 被 表示 成 字 节 序列 的 形式 并 可 能 被 压 
缩 。 用 外 部 数据 表示 正文 的 做 法 ， 直 接 和 协议 打交道 的 应 用 程序 员 在 使 用 HTTP 时 就 简单 多 了 。 在 本 
文中 ,文本 表示 不 会 使 消息 的 长 度 增加 的 太 多 。 

数据 实现 的 资源 在 参数 和 结果 中 具有 类 似 MIME 的 结构 。 在 RFC 2045[ Freed and Borenstein 1996 ] 
中 指定 多 用 途 Intemet 邮件 扩展 (Multipurpose Internet Mail Extension, MIME) 是 发 送 多 部 分 数据 (如 
邮件 中 的 文本 、 图 片 和 声音 ) 的 标准 。 数 据 源 可 以 提供 参数 和 结果 中 类 似 MIME 的 结构 。 数 据 以 
MIME 类 型 作为 前 级 ,这 样 接收 者 就 知道 如 何 去 处 理 它 。MIME 类 型 指定 类 型 或 子 类 型 。 例 如 。text/ 
pain, 、text/html 、image/gif、image/JPEG。 客 户 也 可 以 指定 他 们 想 要 接收 的 MIME 类 型 。 

HTTP 方法 每 个 用 户 请 求 指定 使 用 服务 器 端 资源 的 方法 和 该 资源 的 URL。 应 答 则 说 明 该 请 求 的 
状态 。 请 求 和 应 答 可 能 也 包含 资源 数据 、 表 单 内 容 或 者 运行 在 Web 服务 器 上 的 程序 资源 的 输出 。 该 方 
法 包含 以 下 的 内 容 : 

GET: 请 求 在 参数 中 给 出 的 URL 对 应 的 资源 。 如 果 该 URL 指向 数据 ， 那 么 服务 器 就 会 返回 该 URL 
指定 的 数据 ， 如 果 该 URL 指向 一 个 程序 ， 那 么 服务 器 就 会 运行 该 程序 并 把 结果 返回 客户 端 。URL 也 可 
以 有 参数 。 例 如 ，GET 方法 能 够 将 表单 的 内 容 以 程序 参数 的 形式 发 送出 去 。 该 GET 方法 执行 的 条 件 可 
以 是 资源 最 后 的 修改 日 期 。GET 方法 也 可 以 通过 配置 以 获得 部 分 数据 。 

使 用 GET 方法 可 使 请 求 的 所 有 信息 都 包含 在 URL 中 (例如 ， 见 第 1.6 节 中 的 查询 字符 串 ) 。 

HEAD; 该 请 求 和 GET 相同 ， 但 是 它 不 返回 任何 数据 。 然 而 ， 它 返回 与 数据 相关 的 所 有 信息 ， 例 
如 最 后 一 次 修改 的 时 间 ， 数 据 的 格式 和 大 小 。 

POST: 指定 资源 (例如 程序 ) 的 URL， 该 资源 可 处 理 在 请 求 消息 体 中 提供 的 数据 。 执 行 数据 的 处 
理 过 程 与 URL 所 指定 的 程序 功能 有 关 。 当 某 个 执行 活动 可 能 改变 服务 器 端的 数据 时 使 用 POST 方法 。 


111 


112 - 第 5 章 远程 调用 


POST 方法 可 以 处 理 : 

© 向 数据 处 理 进程 (如 servlet) 提供 数据 块 。 例 如 ， 提 交 从 Web 网 站 购物 的 Web 表单 。 

© 发 布 消息 到 邮件 列表 或 更 新 列表 成 员 的 详细 信息 。 

。 通过 追加 操作 扩展 数据 库 。 

PUT; 要求 请 求 中 提供 的 数据 在 存储 时 以 指定 的 URL 作为 标识 符 ， 要 人 么 作为 现 有 资源 的 修改 ， 要 
么 作为 一 种 新 资源 。 

DELETE: 服务器 删除 给 定 URL 所 标识 的 资源 ， 服 务 器 可 能 不 经 常 允 许 该 操作 ， 在 这 种 情况 下 将 
返回 请 求 失败 的 应 答 。 l 

OPTIONS; 服务 器 提供 给 客户 端 能 够 应 用 到 给 定 URL 及 其 特定 需求 的 方法 列表 《例如 GET, 
HEAD, PUT), 

TRACE; 服务 器 返回 请 求 的 消息 ， 用 于 诊断 的 目的 。 

PUT 和 DELETE 操作 是 寡 等 操作 。 但 POST 操作 未 必 是 这 样 的 ， 因 此 POST 操作 能 够 改变 资源 的 状 
态 。 其 他 操作 因为 不 改变 任何 东西 所 以 是 安全 的 。 

代理 服务 器 可 能 中 断 上 面 描述 的 请 求 〈 见 2.3.1 节 ) 。 代 理 服 务 器 可 能 缓存 对 GET 和 HEAD 的 
ME o 

MSHA Request 消息 指定 方法 的 名 字 、 资 源 的 URL、 协 议 的 版 本 ， 一 些 头 和 消息 体 的 选择 信 
息 。 图 5-6 描述 了 方法 为 GET 的 HTTP 请 求 消息 的 内 容 。 当 该 URL 指定 数据 源 时 ， 这 个 GET 方法 没有 
消息 体 。 

方法 URL 或 路 径 名 HTTP 版 本 头 部 消息 体 

HTTP/ 1.1 


Æ 5-6 HTTP 请 求 消息 


对 代理 服务 器 的 请 求 需要 绝对 URL, WA 5-6 所 示 。 对 源 服务 器 〈 资 源 所 在 的 服务 器 ) 的 请 求 指 
定 路 径 名 ， 并 在 主机 字 头 段 中 给 出 该 源 服务 器 的 DNS 名 。 例 如 : 

GET /index. html HTTP/\.1 

Host: www. des. qmul. ac. uk 

通常 ， 在 字 头 段 中 包含 了 请 求 的 修饰 符 和 客户 信息 ， 例 如 最 近 一 次 修改 资源 时 间 的 情况 或 能 接收 
信息 的 内 容 格式 (ln HTML 文本 、 音 频 、JPEG 图 片 ) 。 授 权 字段 可 用 于 提供 客户 的 凭证 ， 以 证 书 的 
形式 指定 其 访问 资源 的 权限 。 

应 答 消 息 指定 协议 的 版 本 、 状 态 代 码 和 “原因 ”、 一 些 头 信息 和 可 选 的 消息 体 ， 如 图 5-7 所 示 。 状 
态 代码 和 原因 提供 服务 器 成 功 的 报告 或 者 以 其 他 方式 执行 请 求 ; 前 者 是 由 程序 解释 的 三 位 数 整数 ， 后 
者 是 人 们 能 够 理解 的 正文 短语 。 头 字段 中 通常 传递 关于 服务 器 或 访问 的 资源 的 额外 信息 。 例 如 ， 如 果 
一 个 请 求 要 求 认 证 ， 那 么 应 答 消 息 的 状态 将 显示 此 信息 并 且 头 字段 中 包含 了 质询 。 一 些 状态 返回 可 能 
很 复杂 。 尤 其 是 ，303 状态 表明 浏览 器 要 访问 另 一 个 URL, BURL 出 现在 应 答 信 息 的 头 字段 中 。 当 程 
序 需 要 将 浏览 器 重 定向 到 一 个 选 定 的 资源 时 ， 它 用 于 响应 被 POST 请 求 激活 的 一 个 程序 。 

HTTP 版 本 状态 码 Hh AR 消息 体 


图 5-7 HTTP 应 答 消息 


请 求 或 应 答 消息 体 中 包含 了 在 请 求 中 指定 的 URL 的 相关 数据 信息 。 消 息 体 自身 的 头 字段 指定 了 数 
据 信息 ， 如 消息 体 的 长 度 、MIME 类 型 、 字 符 集 、 内 容 编码 和 最 后 的 修改 日 期 。 该 MIME 类 型 字段 指定 
数据 的 类 型 ， 例 如 ，image/JPEG 或 者 text/plain， 内 容 编码 字段 中 指定 要 使 用 的 压缩 算法 。 


5.3 ”远程 过 程 调用 
正如 在 第 2 章 提 到 的 那样 ， 远 程 过 程 调用 (RPC) 的 概念 代表 着 分 布 式 计算 的 重大 突破 ， 同 时 也 





第 5 章 远程 调用 


使 分 布 式 编程 和 传统 编程 相似 ， 即 实现 了 高 级 的 分 布 透 明 性 。 这 种 相似 性 通过 将 传统 的 过 程 调 用 模型 
扩展 到 分 布 式 环境 方式 实现 。 尤 其 是 ， 在 RPC 中 调用 远程 机 器 上 的 程序 就 像 这 些 程序 在 本 地 的 地 址 空 
间 中 一 样 。 那 么 底层 RPC 系统 就 隐藏 了 分 布 式 环境 重要 的 部 分 ， 包 括 对 参数 和 结果 的 编码 和 解码 、 消 
息 传 递 以 及 保留 过 程 调用 要 求 的 语义 。 该 概念 由 Birrell 和 Nelson 在 1984 年 首次 提出 ， 为 许多 分 布 式 系 
统 的 编程 铺 平 了 道路 ， 一 直到 现在 。 


5.3.1 RPC 的 设计 问题 


在 看 RPC 系统 实现 之 前 ， 我 们 首先 看 三 个 对 于 理解 这 个 概念 很 重要 的 问题 ， 
。 RPC 推动 的 编程 风格 一 接口 编程 。 
。 和 RPC 关联 的 调用 语义 。 
。 透明 性 的 关键 问题 和 它 如 何 与 远程 过 程 调用 相关 联 。 
接口 编程 ”大 多 数 现代 编程 语言 提供 了 把 一 个 程序 组 织 成 一 系列 能 彼此 通信 的 模块 的 方法 。 模 块 
之 间 的 通信 可 以 依靠 模块 间 的 过 程 调用 ， 或 者 直接 访问 另外 一 个 模块 中 的 变量 来 实现 。 为 了 控制 模块 
之 间 可 能 的 交互 ， 必 须 为 每 一 个 模块 定义 显 式 的 接口 ， 模 块 接口 指定 可 供 其 他 模块 访问 的 过 程 和 变量 。 
实现 后 的 模块 就 隐藏 了 除 接口 以 外 的 所 有 信息 。 只 要 模块 的 接口 保持 相同 ， 模 闫 的 实现 就 可 以 随意 改 
变 而 不 影响 到 模块 的 使 用 者 。 
分 布 式 系统 的 接口 ; 在 分 布 式 程序 中 ,模块 能 够 运行 在 不 同 的 进程 中 。 在 客户 /服务 器 模型 中 ， 每 
个 服务 器 提供 一 个 客户 端 可 用 的 方法 集合 。 例 如 ， 文 件 服务 器 能 够 提供 读 、 写 文件 的 方法 。 “服务 接 
2” (service Interface) 这 个 术语 涉及 服务 器 提供 的 过 程 的 说 明 、 定 义 每 个 过 程 参数 的 格式 。 
在 分 布 式 编程 中 使 用 接口 有 很 多 的 好 处 ， 这 都 源 于 接口 和 实现 之 间 重 要 的 分 离 ， 
。 对 于 任何 形式 的 模块 化 编程 ， 程 序 员 只 需要 关心 服务 接口 提供 的 抽象 而 不 需要 去 关注 它们 的 实 
现 细节 。 

。 推演 (潜在 的 异 构 ) 分 布 式 系统 ， 程 序 员 也 无 需 知道 编程 语言 或 者 实现 服务 (在 分 布 式 系统 
中 管理 异 构 性 的 重要 一 步 ) 的 底层 平台 。 

。 只 要 接口 〈 外 部 视图 ) 保持 不 变 ， 实 现 可 以 改变 ， 所 以 该 方法 自然 地 支持 软件 的 演化 。 更 确 
切 来 说 ， 接 口 也 能 改变 只 要 保持 和 原版 本 相互 兼容 。 

服务 接口 的 定义 受 分 布 式 底层 的 基础 设施 的 影响 : 

。 对 于 运行 在 某 个 进程 中 的 客户 模块 去 访问 另 一 个 进程 中 模块 的 变量 是 不 可 能 的 。 因 此 ， 服 务 接 
口 不 能 指定 到 变量 的 直接 访问 。 注 意 ，CORBA IDL 接口 能 指定 属性 ， 这 看 起 来 打破 了 该 规则 。 
虽然 不 能 直接 地 访问 该 属性 ， 但 是 可 以 通过 自动 添加 到 接口 中 的 一 些 getter 和 setter 过 程 来 访问 。 
在 本 地 过 程 调用 中 使 用 的 参数 传递 机 制 〈 例 如 传递 值 和 传递 引用 ) 不 适用 于 调用 者 和 过 程 在 
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不 同 的 进程 中 的 情况 。 尤 其 是 不 支持 传递 引用 。 而 在 分 布 式 程序 中 ， 模 块 接口 的 过 程 规范 用 


input 或 output 来 描述 参数 ， 或 有 时 都 给 出 描述 。input 参数 通过 发 送 请 求 消息 中 的 参数 值 传递 
到 远程 服务 器 ， 然 后 将 它们 作为 参数 提供 给 在 服务 器 上 执行 的 操作 。 在 应 答 消息 中 返回 的 out- 
put 参数 被 作为 调用 的 结果 或 改变 调用 环境 中 相应 的 变量 的 值 。 当 某 个 参数 同时 作为 输入 /输出 
参数 时 ， 那 么 在 请 求 和 应 答 消 息 中 都 必须 传送 它 的 值 。 
。 本 地 和 远程 模块 的 另外 一 个 不 同 是， 一 个 过 程 的 地 址 对 于 一 个 远程 过 程 是 无 效 的 。 因 此 ， 地 址 
不 能 作为 参数 和 远程 模块 的 调用 结果 被 返回 。 
这 些 约束 对 于 接口 规范 的 定义 语言 有 很 重要 的 影响 ， 下 面 将 讨论 。 
接口 定义 语言 : RPC 机 制 可 以 集成 到 某 种 编程 语言 中 ， 只 要 该 语言 包含 适当 的 定义 接口 的 表示 法 ， 
并 允许 将 输入 和 输出 参数 映射 成 该 语言 中 正常 使 用 的 参数 。 当 一 个 分 布 式 应 用 的 所 有 部 分 都 是 用 同一 
种 语言 编写 时 ， 这 种 方法 非常 有 效 。 因 为 它 允 许 程 序 员 用 一 种 语言 (例如 Java) 实现 本 地 调用 和 远程 
调用 ， 所 以 这 种 方法 也 很 方便 。 
然而 ， 许 多 现 有 的 有 用 的 服务 是 用 C++ 和 其 他 语言 编写 的 。 为 了 满足 远程 访问 的 需要 ， 人 允许 程序 
采用 包括 Java 在 内 的 各 种 语言 进行 编写 是 非常 有 益 的 。 接 口 定义 语言 (Interface definition languages, 
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IDL) 允许 以 不 同 语言 实现 过 程 以 便 相互 调用 。IDL 提供 了 一 种 定义 接口 的 表示 法 ， 接 口中 操作 的 每 个 
参数 可 以 在 类 型 声明 之 外 附加 输 和 人 或 输出 类 型 说 明 。 

图 5-8 给 出 了 CORBA IDL 的 一 个 简单 例子 。Person 结构 与 4. 3. 1 节 中 用 于 说 明 编 码 的 结构 相同 。 
名 为 PersonList 的 接口 指定 了 实现 该 接口 的 远程 对 象 中 对 In file Person idl 
RMI 可 用 的 方法 。 例 如 ， 方 法 addPerson 指定 它 的 参数 是 struct Person { 














in， 意 味 着 它 是 一 个 输入 型 参数 。 而 方法 getPerson 是 通 I place, 
过 名 字 检 索 一 个 Person 实例 ， 它 将 其 第 二 个 参数 指定 为 long year; 
out， 意 昧 着 这 是 一 个 输出 型 参数 。 interface PersonList { 
IDL 这 个 概念 最 初 是 为 了 RPC 系统 而 开发 ， 但 可 在 readonly attribute string listname; 
RI 和 Web 服务 中 占用。 我 们 的 实例 学 习 包 所 wider POD pao 
。 Sun XDR 作为 RPC 的 IDL 的 例子 (在 第 5.3.3 long number(; 
节 ) F 
e CORBA IDL 作为 RMI 的 IDL 的 例子 (也 在 第 8 


eR), 图 5-8 CORBA IDL 的 例子 

© Web 服务 描述 语言 (WSDL) 用 于 互联 网 范围 的 RPC 支持 Web ARS (WSS 9.3 节 ) ; 

© 被 Google 用 于 存储 和 互 换 很 多 种 结构 信息 的 协议 缓冲 区 (HU 21.4.1 45), 

RPC 调用 语义 5.2 节 讨 论 了 请 求 - 应 答 协议 ， 在 该 节 中 说 明了 可 以 通过 不 同 的 方式 实现 doOper- 
ation 以 提供 不 同 的 传输 保证 。 主 要 的 选择 有 : 

重 发 请 求 消息 : 是 否 要 重 发 请 求 消 息 ， 直 到 接收 到 应 答 或 者 认定 服务 器 已 经 出 现 故 障 为 止 。 

过 滤 重 复 请 求 ; 当 启 用 重 传 请 求 的 时 候 ， 是 否 要 在 服务 器 过 滤 掉 重复 的 请 求 。 

重 传 结果 ; 是 否 要 在 服务 器 上 保存 结果 消息 的 历史 ， 以 便 无 须 重新 执行 服务 器 上 的 操作 就 能 重 传 
丢失 的 结果 。 

将 这 些 选 择 组 合 使 用 便 导 致 了 调用 者 所 见 到 的 远程 调用 可 靠 性 的 各 种 可 能 语义 。 图 5-6 给 出 了 有 
关 选 择 及 其 产生 的 调用 语义 名 。 注 意 ， 对 于 本 地 方法 调用 ,语义 是 恰好 一 次 ,意味 着 每 个 方法 都 恰好 
执行 一 次 。RPC 调用 语义 定义 如 下 : 

或 许 调 用 语义 : 采用 或 许 调用 语义 ， 远程 方法 可 能 执行 一 次 或 者 根本 不 执行 。 当 没有 使 用 任何 容 
错 措 施 的 时 候 ， 就 启用 了 或 许 语义 。 它 可 能 会 遇 到 以 下 的 故障 类 型 . 

。 遗漏 故障 ， 如 果 调 用 或 结果 消息 丢失 。 

。 系统 崩溃 ， 由 于 包含 远程 对 象 的 服务 器 出 现 故 障 。 

如 果 在 超时 后 没有 接收 到 结果 消息 ， 并 且 也 不 青 重 发 请 求 消息 的 话 ， 那 么 该 方法 是 否 执 行 过 就 不 
能 确定 。 如 果 调 用 消息 丢失 了 ， 那 么 该 方法 就 不 会 执行 。 另 一 方面 ， 方 法 也 可 能 执行 过 了 ， 只 是 结果 
消息 丢失 了 。 系 统 山 演 可 能 发 生 在 方法 执行 之 前 ， 也 可 能 发 生 在 方法 执行 之 后 。 此 外 ， 在 蜡 构 系统 中 ， 
方法 执行 返回 的 结果 可 能 会 在 超时 后 才 到 达 。 或 许 语义 仅 对 那些 可 以 接受 偶然 调用 失败 的 应 用 是 有 
用 的 。 

至 少 一 次 调用 语义 : 采用 至 少 一 次 调用 语义 ， 调 用 者 可 能 收 到 返回 的 结果 ， 也 可 能 收 到 一 个 异常 。 
在 收 到 返回 结果 的 情况 下 ， 调 用 者 知道 该 方法 至 少 执行 过 一 次 ， 而 异常 信息 则 通知 它 没有 接收 到 执行 
结果 。 至 少 一 次 调用 语义 可 以 通过 重 发 请 求 消息 来 达到 ， 它 屏 项 了 调用 或 结果 消息 的 遗漏 故障 。 至 少 
一 次 调用 语义 可 能 会 遇 到 下 列 类 型 的 故障 : 

© 由 于 包含 远程 对 象 的 服务 器 故障 而 引起 的 系统 崩溃 。 

。 随机 故障 。 重 发 调用 消息 时 ， 远 程 对 象 可 能 会 接收 到 这 一 消息 并 多 次 执行 某 一 方法 ， 结 果 导 致 

存储 或 返回 了 错误 的 值 。 

5.2 节 定 义 了 宕 等 操作 ， 这 种 操作 反复 执行 后 的 结果 与 只 执行 一 次 的 结果 一 样 。 非 医 等 操作 在 多 
次 执行 之 后 可 能 会 出 现 错误 的 结果 。 例 如 ， 一 个 向 银行 账户 增加 10 美元 的 操作 只 应 该 执行 一 次 ， 如 果 
重复 执行 的 话 ， 存 款 余额 就 可 能 不 断 增加 ! 如 果 能 设计 服务 器 中 的 操作 使 其 服务 接口 中 所 有 的 方法 都 
是 军 等 操作 的 话 ， 那 么 至 少 一 次 调用 语义 是 可 以 接受 的 。 
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至 多 一 次 调用 语义 ; 采用 至 多 一 次 调用 语义 ,调用 者 可 以 接收 返回 的 结果 ， 也 可 以 接收 一 个 异常 。 
在 接收 返回 结果 的 情况 下 ， 调 用 者 知道 该 方法 恰好 执行 过 一 次 。 而 异常 信息 则 通知 调用 者 没有 收 到 执 
行 结果 。 在 这 种 情形 下 ,方法 要 么 执行 过 一 次 ,要么 根本 没有 执行 。 至 多 一 次 调用 语义 可 以 通过 使 用 
所 有 的 容错 措施 来 达到 (在 图 5-9 中 强调 了 ) 。 正 如 前 面 的 情形 ， 重 发 请 求 消息 可 以 屏 项 所 有 调用 或 结 
果 消 息 的 遗漏 故障 。 这 一 系列 的 容错 措施 通过 确保 每 个 RPC 的 程序 没有 被 执行 一 次 以 上 ， 防 止 了 随机 
故障 。Sun RPC (在 第 5.3.3 节 中 讨论 过 ) 提供 至 少 一 次 调用 语义 。 


























容错 措施 
T > y 
ees sae aie 重新 执行 RMH 
重 发 请 求 消息 | ”过 小 重复 请 求 过 程 或 重 传 应 答 
否 不 适用 不 适用 或 许 
是 a 重新 执行 过 程 至 少 一 次 
是 是 重 传 应 答 至 多 一 次 
图 5-9 调用 语义 


透明 性 RPC 的 创始 人 Birrell 和 Nelson[ 1984] 致力 于 使 远程 过 程 调用 与 本 地 过 程 调用 尽 可 能 相 
似 ， 使 得 本 地 过 程 调用 和 远程 过 程 调用 在 语法 上 没有 差别 。 所 有 对 编码 和 消息 传递 过 程 的 必要 调用 都 
对 编写 调用 的 程序 员 面 隐藏 起 来 。 尽 管 请 求 消息 在 超时 后 重新 发 送 ， 但 这 对 调用 者 而 言 也 是 透明 
的 一 一 使 远程 过 程 调用 的 语义 与 本 地 过 程 调用 的 语义 相似 。 

更 精确 来 说 ， 返 回 到 第 1 章 的 术语 ，RPC 致力 于 提供 最 少 的 位 置 透明 性 和 访问 透明 性 ， 隆 藏 (可 
能 是 远程 的 ) 过 程 的 物理 位 置 ， 也 以 同样 的 方式 访问 本 地 和 远程 的 过 程 。 中 间 件 还 能 给 RPC 提供 额外 
程度 的 透明 性 。 

然而 ， 远 程 调用 比 本 地 调用 更 容易 失败 ， 因 为 它们 涉及 网 络 、 另 一 台 计算 机 和 另 一 个 进程 。 不 论 
选择 上 述 哪 种 调用 语义 ， 总 有 可 能 接收 不 到 结果 ， 而 且 在 出 现 故 障 的 情况 下 ,不 可 能 判别 故障 是 源 于 
网 络 的 失效 还 是 源 于 远程 服务 器 进程 的 故障 。 这 就 要 求 发 出 远程 调用 的 对 象 能 够 从 这 样 的 情形 中 恢复 。 

远程 调用 的 延迟 要 比 本 地 调用 的 延迟 大 好 几 个 数量 级 。 这 表明 ， 利 用 远程 调用 的 程序 要 把 延迟 因 
索 考 虑 进去 ， 例 如 尽 可 能 减少 远程 交互 等 。Argus[ Liskov and Scheifler 1982] 的 设计 者 建议 调用 者 应 该 
能 够 中 止 那 种 花费 了 很 长 时 间 但 是 对 服务 器 却 毫 无 效果 的 远程 过 程 调用 。 为 了 做 到 这 一 点 ， 服 务 器 要 
能 恢复 到 过 程 调用 之 前 的 状态 。 这 些 问题 将 在 第 16 章 讨论 。 

远程 过 程 调 用 也 要 求 另 外 的 参数 传递 类 型 ， 像 上 面谈 到 的 那样 。 尤 其 是 ，RPC 不 支持 引用 调用 。 

Waldo 等 [1994] 认为 ， 本 地 对 象 和 远程 对 象 之 间 的 不 同 应 该 表现 在 远程 接口 上 上， 让 对 象 对 可 能 
出 现 的 部 分 故障 以 一 致 的 方式 做 出 反应 。 比 起 这 种 关于 远程 调用 的 语法 是 否 应 该 与 本 地 调用 不 同 的 争 
论 来 ， 有些 系 统 则 做 出 了 实际 性 改进 。 以 Argus 为 例 ， 它 已 被 扩展 到 远程 操作 对 于 程序 员 而 言 是 显 式 
的 程度 。 

DL 的 设计 者 也 会 面临 远程 调用 是 否 应 该 透明 的 抉择 。 例 如 ， 在 有 些 IDL 中 ， 当 客户 不 能 与 远程 
过 程 通信 时 ， 远 程 调 用 就 会 抛 出 一 个 异常 。 客 户 程序 应 该 能 处 理 这 一 异常 ， 并 解决 此 类 故障 。IDL 也 
可 以 提供 一 种 指定 过 程 的 调用 语义 的 机 制 ， 这 对 于 远程 对 象 的 设计 者 是 有 帮助 的 一 一 例如 ， 倘 着 为 了 
避免 至 多 一 次 造成 的 系统 开销 而 选择 了 至 多 一 次 调用 语义 ,那么 对 象 的 操作 应 该 被 设计 成 雷 等 的 。 

当前 比较 一 致 的 意见 是 ， 从 远程 调用 的 语法 与 本 地 调用 的 请 法 一 致 的 角度 看 ， 远 程 调 用 应 该 是 透 
明 的 , 但 本 地 调用 和 远程 调用 的 不 同 应 该 表现 在 它们 的 接口 上 。 


5. 3.2 RPC 的 实现 


在 图 5-10 中 给 出 用 于 实现 RPC 的 软件 组 件 。 对 于 服务 接口 中 的 每 个 方法 ,访问 服务 的 客户 端 包含 
了 一 个 存根 过 程 (stub procedure ) 。 该 存根 过 程 的 行为 对 客户 端 来 说 就 像 一 个 本 地 过 程 ， 但 不 执行 调 
/ 用 。 存 根 过 程 把 过 程 标 识 符 和 参数 编码 成 一 个 请 求 消 息 。 该 请 求 消息 通过 它 的 通信 模块 发 送 给 服务 器 。 
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当 应 答 消 息 返回 时 ， 它 将 对 结果 进行 解码 。 对 于 服务 接口 中 的 每 个 方法 ， 服 务 器 端 包含 分 发 器 程序 、 
服务 器 存根 过 程 和 服务 过 程 。 该 分 发 器 程序 根据 请 求 消息 中 的 过 程 标识 符 选 择 一 个 服务 器 存根 过 程 。 
该 服务 器 存根 过 程 对 请 求 消息 中 的 参数 解码 ， 然 后 调用 相应 的 服务 过 程 ， 并 把 返回 值 编码 成 应 答 消息 。 
服务 过 程 是 服务 接口 中 过 程 的 具体 实现 。 客 户 和 服务 器 的 存根 过 程 及 分 发 器 程序 可 以 通过 接口 编译 器 
从 服务 的 接口 定义 中 自动 生成 。 


服务 器 进程 





客户 
存根 过 各 
客户 程序 通信 模块 通信 模块 服务 过 程 
分 发 器 


图 5-10 RPC 中 客户 和 服务 器 存根 过 程 的 角色 


RPC 通常 通过 在 5. 2 节 中 所 讨论 的 那样 的 请 求 - 应 答 协 议 实 现 的 。 请 求 和 应 答 消息 的 内 容 和 在 
图 5-4 所 示 的 请 求 应 答 协 议 是 相同 的 。RPC 实现 可 以 选择 5. 3. 1 节 所 讨论 的 调用 语义 中 的 一 种 : 一 般 选 
择 至 少 一 次 调用 语义 或 最 多 一 次 调用 语义 。 为 此 ， 通 信 模 块 会 根据 图 5-9 所 示 的 请 求 重 传 、 处 理 重复 
和 结果 重 传 的 形式 选择 所 需 的 设计 实现 。 


5.3.3 实例 研究 : Sun RPC 


RFC 1831 [Srinivasan 1995a] 中 描述 了 Sun RPC， 它 是 为 Sun NFS (Sun 网 络 文件 系统 ) 中 的 客 
P -服务 器 通信 而 设计 的 。Sun RPC 有 时 也 称 为 ONC (Open Network Computing， 开 放 网 络 计算 ) RPC. 
它 作为 各 种 Sun 和 其 他 UNIX 操作 系统 的 一 部 分 提供 ， 并 且 也 可 以 安装 在 NFS 中 。 远 程 过 程 调用 可 以 
基于 UDP 协议 实现 ， 也 可 以 基于 TCP 协议 实现 。 当 Sun RPC 采用 UDP 时 ， 请 求 消息 和 应 答 消息 的 长 
度 被 限制 在 一 定 范围 内 一 一 理论 上 可 以 到 64KB， 但 在 实际 中 通常 为 8KB 或 9KB。 它 使 用 至 少 一 次 调用 
语义 ,广播 型 RPC 是 可 选 的 。 

Sun RPC 系统 提供 了 一 种 称 为 XDR 的 接口 语言 和 一 个 可 以 用 于 C 编程 语言 的 接口 编译 器 rpcgen。 

接口 定义 语言 Sun XDR 语言 最 初 用 于 指明 外 部 数据 表达 ， 现 在 扩展 成 为 一 种 接口 定义 语言 。 通 
过 指定 一 组 过 程 定 义 并 支持 类 型 定义 ，XDR 可 用 于 定义 Sun RPC 的 服务 接口 。 与 CORBA IDL 或 Java 
使 用 的 接口 定义 语言 相 比 ， 它 的 表示 方法 相当 简单 。 特 别 是 体现 在 以 下 几 个 方面 : 

© 大 多 数 语言 允许 指定 接口 名 ， 但 Sun RPC 不 是 这 样 一 一 它 提 供 一 个 程序 号 和 一 个 版 本 号 。 程 序 
号 可 以 从 授权 中 心 获得 ， 以 保证 每 个 程序 都 有 其 唯一 的 编号 。 当 一 个 过 程 签名 改变 时 ， 版 本 号 
也 跟着 改变 。 程 序号 和 版 本 号 都 在 请 求 消息 里 传递 ， 以 便 客户 和 服务 器 能 验证 它们 是 否 正在 使 
用 相同 的 版 本 。 
一 个 过 程 定义 指定 一 个 过 程 签 名 和 一 个 过 程 号 。 过 程 号 用 作 请 求 消息 中 的 过 程 标识 符 。( 它 可 
能 会 为 接口 编译 器 生成 过 程 标识 符 。) 
只 人 允许 使 用 单个 输入 参数 。 因 此 ， 需 要 多 个 参数 的 过 程 必须 把 参数 作为 一 个 结构 的 组 成 部 分 。 
。 过 程 的 输出 参数 以 单个 结果 返回 。 
过 程 签 名 由 结果 类 型 、 过 程 名 和 输入 参数 的 类 型 组 成 。 返 回 结 果 和 输入 参数 的 类 型 可 以 指定 为 
单个 的 值 ， 也 可 以 指定 为 包含 几 个 值 的 一 个 结构 。 

filth, AE 5-11 中 的 XDR 定义 ， 它 定义 了 用 于 读 文件 和 写 文件 的 两 个 过 程 的 接口 。 它 的 程序 号 
是 9999， 版 本 号 是 2。READ 过 程 (第 2 行 ) 将 一 个 带 有 三 个 域 的 结构 (包括 文件 标识 符 、 文 件 中 的 
位 置 和 要 求 的 字 节 数 ) 作为 输入 参数 ， 其 结果 也 是 一 个 结构 ， 其 中 包括 返回 的 字 节 数 和 文件 数据 。 
WRITE 过 程 (第 1 行 ) 没有 返回 结果 。WRITE 和 READ 过 程 分 别 被 赋予 编号 1 和 编号 2。 号 码 0 保留 
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给 空 过 程 ， 空 过 程 是 自动 生成 的 ， 用 于 测试 一 个 服务 器 是 否 可 用 。 





const MAX = 1000; 
typedef int Fileldentifier; 
typedef int FilePointer; 
typedef int Length; 
struct Data { 

int length; 

char buffer[MAX]; 
} ` 


struct writeargs { 
Fileldentifier f; 
FilePointer position; 
Data data; 

E 

struct readargs { 
Fileldentifier f; 
FilePointer position; 
Length length; 

FA 


program FILEREADWRITE { 
version VERSION { 
void WRITE (writeargs)=1; 


hu 


Data READ(readargs)=2; 2 
fa; 
} = 9999; 











图 5-11 Sun XDR 的 文件 接口 


接口 定义 语言 提供 了 用 于 定义 常量 、 类 型 预定 义 (typedef) 、 结 构 、 枚 举 类 型 、 联 合 和 程序 的 表示 法 。 

类 型 预定 义 、 结 构 、 枚 举 类 型 使 用 C 语言 的 语法 。 可 以 使 用 接口 编译 器 rpcgen 根据 接口 定义 生成 以 下 部 分 : 
。 客户 存根 过 程 。 
© 服务 器 main 过 程 、 分 发 器 和 服务 器 存根 过 程 。 
。 用 于 分 发 器 、 客 户 与 服务 器 存根 过 程 的 XDR 编码 和 解码 过 程 。 

WE Sun RPC 在 每 台 计 算 机 上 的 一 个 熟知 的 端口 号 上 运行 一 个 称 为 端口 映射 器 的 本 地 绑 定 服务 。 
端口 映射 器 的 每 个 实例 记录 正在 本 地 运行 的 每 个 服务 所 使 用 的 程序 号 、 版 本 号 和 端口 号 。 当 服务 器 启 
动 时 ， 它 在 本 地 端口 映像 器 中 注册 其 程序 号 、 版 本 号 和 端口 号 。 当 客户 启动 时 ， 它 通过 发 送 指 定 程序 
号 和 版 本 号 的 远程 请 求 给 服务 器 主机 上 的 端口 映射 器 ， 从 而 找到 服务 器 的 端口 。 

当 一 个 服务 有 多 个 实例 运行 在 不 同 计算 机 上 的 时 候 ， 每 个 实例 可 以 使 用 不 同 的 端口 号 接收 客户 的 请 
求 。 如 果 一 个 客户 需要 组 播 一 个 请 求 给 所 有 使 用 不 同 端口 号 的 服务 实例 ， 那 么 它 不 能 使 用 直接 广播 消息 
来 达到 目的 。 解 决 办 法 是 ， 客 户 以 组 播 的 方式 发 出 远程 过 程 调用 ， 将 指定 程序 和 版 本 号 的 请 求 广播 到 所 
有 的 端口 映像 器 。 每 个 端口 映射 器 判断 如 果 有 一 个 合适 的 本 地 服务 程序 的 话 ， 就 给 它 转发 所 有 这 样 的 调用 。 

认证 Sun RPC 请 求 和 应 答 销 息 提 供 了 一 些 附加 域 ， 以 便 在 客户 和 服务 器 之 间 传 输 认 证 信息 。 请 
求 消息 中 包含 正在 运行 客户 程序 的 用 户 的 证 书 。 例 如 ， 按 UNIX 的 认证 风格 ， 证 书包 括 用户 的 uid 和 
Bid。 访 问 控制 机 制 构 建 在 认证 信息 之 上 ， 该 认证 信息 可 以 通过 第 二 个 参数 用 于 服务 器 过 程 。 服 务 器 程 
序 负责 实施 访问 控制 ， 根 据 认 证 信息 决定 是 否 执行 每 个 过 程 调用 。 例 如 ， 如 果 服 务 器 是 一 个 NFS 文件 
服务 器 ， 那 么 它 要 验证 用 户 是 否 有 足够 的 权限 来 执行 所 请 求 的 文件 操作 。 

Sun RPC 支持 几 种 不 同 的 认证 协议 ， 它 们 包括 ; 

。 没有 认证 。 

。 上 文 描述 的 UNIX 风格 。 

o 为 标记 RPC 消息 创建 共享 密 钥 的 风格 。 

© Kerberos 认证 风格 ( 见 第 11 章 )。 

”RPC 头 部 的 一 个 域 指明 它 使 用 的 风格 。 
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关于 安全 的 一 种 更 通用 的 方法 可 参见 RFC 2203 中 的 描述 [Eisler et al. 1997] 。 它 对 RPC 消息 和 消息 
认证 的 安全 性 和 完整 性 提供 保障 。 它 允许 客户 和 服务 器 就 安全 上 下 文 进行 协商 ， 在 该 上 下 文中 或 者 不 应 
用 任何 安全 机 制 或 者 要 求 有 安全 性 保障 ， 可 能 会 提供 消息 完整 性 、 消 息 私密 性 保障 ， 或 者 两 者 兼 而 有 之 。 

客户 和 服务 器 程序 ”关于 Sun RPC 的 详细 介绍 可 以 在 www. edkS. net/rmi 中 找到 。 它 包括 与 图 5-11 
中 定义 的 接口 所 对 应 的 客户 和 服务 器 程序 例子 。 


5.4 远程 方法 调用 
远程 方法 调用 (Remote Method Invocation, RMI) 和 RPC 有 紧密 的 联系 ， 只 是 RMI 被 扩展 到 了 分 布 
式 对 象 的 范畴 。 在 RMI 中 ， 访 问 对 象 能 够 调用 位 于 潜在 的 远程 对 象 上 的 方法 。 至 于 RPC， 它 底层 的 细 
节 被 隐藏 起 来 不 为 使 用 者 所 知 。RMI 和 RPC 的 共性 如 下 : 
© 它们 都 支持 接口 编程 ， 同 时 能 带 来 使 用 这 种 方法 的 好 处 〈 见 5.3.1 节 )。 
。 它们 都 是 典型 的 基于 请 求 - 应 答 协 议 构造 的 ， 并 能 提供 一 系列 如 最 少 一 次 、 最 多 一 次 调用 语义 。 
。 它们 都 提供 相似 程度 的 透明 性 一 一 也 就 是 说 ， 本 地 调用 和 远程 调用 采用 相同 的 语法 ， 但 远程 接 
口 通常 暴露 了 底层 调用 的 分 布 式 本 质 ， 例 如 通过 支持 远程 异常 。 

下 面 的 不 同 会 在 复杂 的 分 布 式 应 用 和 服务 的 编程 中 带 来 额外 的 功能 。 

。 程序 员 能 够 在 分 布 式 系统 软件 开发 中 使 用 所 有 的 面向 对 象 编程 的 功能 ， 包 括 对 象 、 类 、 继 承 的 
使 用 ， 以 及 相关 面向 对 象 的 设计 方法 和 相关 的 工具 的 使 用 。 

© 基于 面向 对 象 系统 中 对 象 标识 的 概念 ， 在 基于 RM 系统 中 的 所 有 对 象 都 有 唯一 的 对 象 引 用 
《无 论 对 象 是 本 地 还 是 远程 的 ) 。 对 象 引 用 可 以 当做 参数 进行 传递 ， 因 此 RMI 比 RPC 提供 了 更 
为 丰富 的 参数 传递 语义 。 

在 分 布 式 系统 中 ， 参 数 传递 的 问题 尤其 重要 。RMI 使 得 程序 员 不 仅 能 够 通过 值 进行 输入 或 输出 参数 
传递 ， 而 且 还 能 通过 对 象 引用 进行 传递 。 如 果 下 层 的 参数 比较 大 或 比较 复杂 ， 那 么 传递 引用 是 特别 有 用 
的 。 远 程 一 端 一 旦 接收 到 对 象 引 用 就 能 够 使 用 远程 方法 调用 访问 该 对 象 ， 而 不 是 通过 网 络 传输 对 象 值 。 

本 节 的 其 余部 分 将 介绍 更 详细 的 远程 方法 调用 的 概念 ， 在 讨论 RMI 相关 的 实现 问题 (包括 分 布 式 
垃圾 收集 ) 之 前 首先 讨论 与 分 布 式 对 象 模型 相关 的 关键 问题 。 


5.4.1 RMI 的 设计 问题 

前 面 已 经 指出 ，RMI 在 接口 编程 、 调 用 语义 和 透明 性 水 平 上 遇 到 了 和 RPC 相同 的 设计 问题 。 读 者 
可 以 参见 $. 3. 1 节 中 这 些 问题 的 讨论 。 

关键 设计 问题 涉及 对 象 模型 ， 尤 其 是 实现 从 对 象 到 分 布 式 对 象 的 转变 。 我 们 首先 描述 传统 的 对 象 
模型 ， 然 后 描述 分 布 式 对 象 模型 。 

对 和 象 模 型 ”一 个 面向 对 象 程序 (例如 Java 或 C ++ 程序 ) 由 相互 交互 的 对 象 的 集合 组 成 ， 其 中 的 每 
个 对 象 又 由 一 组 数据 和 一 组 方法 组 成 。 一 个 对 象 与 其 他 对 象 通信 是 通过 调用 其 他 对 象 的 方法 、 传 递 参 数 
和 接收 结果 进行 的 。 对 象 能 封装 它们 的 数据 和 方法 代码 。 一 些 语 言 〈 例 如 Java FIC ++), ， 人 允许 程序 员 定 
义 其 实例 变量 能 被 直接 访问 的 对 象 。 但 在 一 个 分 布 式 对 象 系统 中 ， 对 象 的 数据 仅 通 过 它 的 方法 被 访问 。 

对 象 引 用 ， 通过 对 象 引 用 访问 对 象 。 例 如 ， 在 Java 中 ,一 个 变量 看 上 去 拥有 一 个 对 象 ， 但 实际 上 
只 拥有 对 该 对 象 的 引用 。 为 了 调用 对 象 的 一 个 方法 ， 需 要 给 出 对 象 引 用 和 方法 名 ， 以 及 必要 的 参数 。 
其 方法 被 调用 的 对 象 有 时 候 称 为 目标 ， 有 时 候 称 为 接收 者 。 对 象 引 用 是 第 一 类 值 〈first- class value), 
这 意味 着 它们 可 以 赋 给 变量 ， 也 可 以 作为 参数 传递 或 者 作为 方法 的 结果 返回 。 

接口 : 接口 在 无 须 指定 其 实现 的 情况 下 提供 了 一 系列 方法 基调 的 定义 〈 即 参数 的 类 型 、 返 回 值 和 
异常 ) 。 如 果 类 包含 实现 接口 的 方法 的 代码 ， 那 么 对 象 将 提供 该 特定 接口 。 在 Java 中 ， 一 个 类 可 以 实 
现 几 个 接口 ， 而 一 个 接口 的 方法 也 可 以 由 任意 类 实现 。 接 口 还 可 以 定义 用 于 声明 参数 类 型 或 变量 类 型 
及 方法 返回 值 的 类 型 ， 注 意 ， 接口 没 有 构造 函数 。 

动作 : 在 面向 对 象 程序 中 ， 动 作 由 调用 另 一 个 对 象 的 方法 的 对 象 启动 。 调 用 可 以 包含 执行 方法 所 
需 的 附加 信息 (参数 ) 。 接 收 者 执行 适当 的 方法 ， 然 后 将 控制 返回 给 调用 对 象 ， 有 时 候 会 提供 一 个 结 
果 。 方法 的 调用 会 产生 三 个 结果 。 
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1) 接收 者 的 状态 会 发 生 改 变 。 

2) 可 以 实例 化 一 个 新 的 对 象 ， 例 如 使 用 Java 或 C++ 中 的 构造 冰 数 进行 实例 化 。 

3) 可 能 会 在 其 他 对 象 中 发 生 其 他 方法 调用 。 

因为 调用 可 能 导致 其 他 对 象 对 方法 的 调用 ， 所 以 动作 就 是 一 连 串 相关 的 方法 调用 ， 每 个 调用 最 终 
都 会 返回 。 这 里 的 解释 没有 考虑 异常 。 

异常 ”程序 可 能 会 遇 到 各 种 错误 和 无 法 预计 的 严重 状况 。 在 方法 执行 期 间 ， 会 发 现 许多 不 同 的 问 
题 ， 例 如 ， 对 象 变量 的 值 不 一 致 ， 无 法 读 写 文件 或 网 络 套 接 字 。 为 此 ， 程 序 员 需 要 在 他 们 的 代码 中 揪 
人 测试 语句 以 处 理 所 有 不 常 出 现 的 情况 或 出 错 情 况 ， 但 这 会 降低 正常 情况 下 的 代码 的 清晰 性 。 利 用 异 
常 ， 便 可 以 在 不 使 代码 复杂 化 的 情况 下 清晰 处 理 错误 条 件 。 另 外 ， 每 个 方法 的 标题 都 清楚 地 列 出 了 产 
生 异 常 的 错误 条 件 ， 以 便 方法 的 用 户 去 处 理 它们 。 可 以 定义 一 块 代码 ， 以 便 在 某 种 不 期 望 发 生 的 条 件 
或 错误 出 现 的 时 候 抛 出 异常 。 这 意味 着 要 将 控制 传递 给 另 一 块 用 于 捕获 异常 的 代码 。 控 制 不 会 再 返回 
到 抛 出 异常 的 地 方 。 

无 用 单元 收集 ” 当 不 再 需要 对 象 时 有 必要 提供 一 种 手段 释放 其 占用 的 空间 。 有 的 语言 《如 Java) 
可 以 自动 检测 出 什么 时 候 该 收回 一 个 已 经 不 再 访问 的 对 象 占据 的 空间 ， 并 将 此 空间 分 配给 其 他 对 象 使 
用 。 这 个 过 程 称 为 无 用 单元 收集 。 有 的 语言 (例如 C++ ) 不 支持 无 用 单元 收集 ， 那 么 程序 员 必 须 自己 
处 理 释放 分 配给 对 象 的 空间 的 问题 。 这 是 一 个 主要 的 出 错 源 。 

分 布 式 对 和 象 ” 对 象 的 状态 由 它 的 实例 变量 值 组 成 。 在 基于 对 象 的 范 型 中 ,程序 的 状态 被 划分 为 几 
个 单独 的 部 分 ， 每 个 部 分 都 与 一 个 对 象 关 联 。 因 为 基于 对 象 的 程序 是 从 逻辑 上 划分 的 ， 所 以 在 分 布 式 
系统 中 可 以 很 自然 地 将 对 象 物理 地 分 布 在 不 同 的 进程 或 计算 机 中 。( 这 个 问题 被 放 在 2. 3. 1 节 讨论 。) 

分 布 式 对 象 系统 可 以 采用 客户 - 服务 器 体系 结构 。 在 此 情形 下 ， 对 象 由 服务 器 管理 ， 它 们 的 客户 通 
过 远程 方法 调用 来 调用 它们 的 方法 。 在 RMI 中 ， 客 户 调用 一 个 对 象 方法 的 请 求 以 消息 的 形式 传送 到 管理 
该 对 象 的 服务 器 ， 通 过 在 服务 器 端 执行 对 象 的 方法 来 完成 该 调用 ， 并 将 处 理 的 结果 通过 另 一 个 消息 返回 
给 客户 。 考 虑 到 会 有 一 连 串 的 相关 调用 ， 因 此 服务 器 中 的 对 象 也 可 以 成 为 其 他 服务 器 中 对 象 的 客户 。 

分 布 式 对 象 也 可 以 采用 其 他 体系 结构 模型 。 例 如 ， 为 了 获得 良好 的 容错 性 并 提高 性 能 ,可 以 复制 
对 象 。 又 如 ， 为 了 改善 性 能 和 可 用 性 ， 可 以 迁移 对 象 。 

将 客户 和 服务 器 对 象 分 布 在 不 同 的 进程 中 ， 可 提高 封装 性 。 也 就 是 说 ， 一 个 对 象 的 状态 只 能 被 该 
对 象 的 方法 访问 ， 这 意味 着 不 可 能 让 未 经 授权 的 方法 作用 于 该 对 象 状 态 。 例 如 ， 不 同 计算 机 上 的 对 象 
可 能 会 并 发 RMI， 这 意味 着 可 能 会 并 发 地 访问 一 个 对 象 ， 也 就 可 能 出 现 访问 冲突 。 然 而 ， 对 象 的 数据 
只 能 由 其 自己 的 方法 访问 这 一 事实 允许 对 象 提供 保护 自身 遭受 不 正确 访问 的 方法 。 例 如 ， 它 们 会 使 用 
条 件 变量 这 样 的 同步 原 语 来 保护 对 其 实例 变量 的 访问 。 

将 分 布 式 程序 的 共享 状态 视 为 一 个 对 象 集 的 另 一 个 好 处 是 ， 对 象 可 以 通过 RMI 来 访问 ， 如 果 类 是 
本 地 实现 的 话 ， 那 么 可 将 对 象 拷贝 到 一 个 本 地 缓存 并 进行 直接 访问 。 

对 异 构 系 统 而 言 ， 对 象 只 能 由 其 方法 访问 这 个 事实 还 有 一 个 好 处 ， 即 在 不 同 场合 使 用 的 不 同 数据 
格式 一 一 使 用 RMI 访问 对 象 方法 的 客户 不 会 注意 到 数据 格式 的 不 同 。 

分 布 式 对 象 模 型 ”本 节 将 讨论 对 象 模型 的 扩展 以 便 使 它 可 以 用 于 分 布 式 对 象 。 每 个 进程 包含 若干 
对 象 ， 其 中 有 些 对 象 既 可 以 接收 远程 调用 又 可 以 接收 本 地 调用 ， 而 其 他 对 象 只 能 接收 本 地 调用 ， 如 
图 5-12 所 示 。 不 管 是 否 在 同一 台 计 算 机 内 ， 不 同 进程 中 的 对 象 之 间 的 方法 调用 都 被 认为 是 远程 方法 调 
用 。 在 同一 进程 中 的 对 象 间 的 方法 调用 称 为 本 地 方法 调用 。 





图 5-12 远程 和 本 地 方法 调用 
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我 们 将 能 够 接收 远程 调用 的 对 象 称 为 远程 对 象 。 在 图 5-12 H, HR B 和 了 是 远程 对 象 。 所 有 对 象 都 
能 够 接收 本 地 调用 ， 当 然 它们 只 能 接收 来 自 拥 有 该 对 象 引 用 的 其 他 对 象 发 出 的 本 地 调用 。 例 如 ， 对 象 C 
必须 具有 对 对 象 E 的 引用 ， 这 样 它 才 可 以 调用 上 的 方法 。 下 面 两 个 基本 概念 是 分 布 式 对 象 模 型 的 核心 : 

远程 对 象 引 用 。 如 果 对 和 象 能 访问 远程 对 象 的 远程 对 象 引 用 ,那么 它们 就 可 以 调用 该 远程 对 象 上 的 
方法 。 例 如 ， 在 图 5-12 中 ，B 的 远程 对 象 引用 必须 对 A 是 可 用 的 。 

远程 接口 。 每 个 远程 对 象 都 有 一 个 远程 接口 ， 由 该 接口 指定 哪些 方法 可 以 被 远程 调用 。 例 如 ， 
图 5-12， 对 象 B 和 了 必须 具有 远程 接口 。 

下 面 将 讨论 远程 对 象 引 用 、 远 程 接口 和 分 布 式 对 象 模型 的 其 他 方面 。 

远程 对 象 引用 一 一 对 象 引用 的 概念 要 加 以 扩展 ,使 那些 能 接收 RM 的 对 象 都 具有 远程 对 象 引 用 。 
远程 对 象 引 用 是 一 个 可 以 用 于 整个 分 布 式 系统 的 标识 符 ， 它 指向 某 个 唯一 的 远程 对 象 。 它 的 表示 通常 
与 本 地 对 象 引 用 不 同 ， 我 们 已 经 在 4. 3.4 节 中 讨论 过 了 。 远 程 对 象 引用 与 本 地 对 象 引 用 主要 在 以 下 两 
方面 类 似 : 

1) 调用 者 通过 远程 对 象 引用 指定 接收 远程 方法 调用 的 远程 对 象 。 

2) 远程 对 象 引 用 可 以 作为 远程 方法 调用 的 参数 和 结果 传递 。 

远程 接口 一 一 远程 对 象 的 类 实现 其 远程 接口 中 的 方法 ， 例 如 在 Java 中 作为 公有 实例 方法 实现 。 其 
他 进程 中 的 对 象 只 能 调用 属于 其 远程 接口 的 方法 ， 如 图 5-13 所 示 。 本 地 对 象 可 以 调用 远程 接口 中 的 方 
法 和 远程 对 象 实现 的 其 他 方法 。 注 意 ， 和 所 有 的 接口 一 样 ， 远 程 接口 没有 构造 函数 。 





图 5-13 远程 对 象 及 其 远程 接口 


CORBA 系统 提供 了 一 种 接口 定义 语言 (IDL) ， 用 于 定义 远程 接口 。 图 5-8 是 一 个 用 CORBA IDL 
定义 的 远程 接口 的 例子 。 远 程 对 象 的 类 和 客户 程序 可 以 用 任何 IDL 编译 器 适用 的 语言 实现 ， 如 C++、 
Java 或 Python。CORBA 客户 不 需要 为 了 远程 调用 其 方法 而 使 用 与 远程 对 象 相同 的 语言 。 

在 Java RMI 中 ， 远 程 接口 以 和 任何 其 他 Java 接口 相同 的 方式 定义 。 它 们 通过 扩展 一 个 名 为 Remote 
的 接口 而 获得 远程 接口 的 能 力 。CORBA IDL (参见 第 8 章 ) 和 Java 都 支持 接口 的 多 重 继承 ， 即 一 个 接 
口 可 以 扩展 一 个 或 多 个 其 他 接口 。 

分 布 式 对 象 系统 中 的 动作 ”和 非 分 布 式 的 情形 类 似 ， 一 个 动作 是 由 方法 调用 启动 的 ， 这 可 能 会 导 
致 其 他 对 象 上 的 方法 调用 。 但 是 在 分 布 式 情形 下 ， 涉 及 一 连 串 相关 调用 的 对 象 可 能 处 于 不 同 的 进程 或 
不 同 的 计算 机 中 。 当 调用 跨越 了 进程 或 计算 机 边界 的 时 候 ， 就 要 使 用 RMI。 此 时 ， 对 象 的 远程 引用 必 
须 对 调用 者 是 可 用 的 。 在 图 5-12 中 ,对象 A 需要 有 到 对 象 B 的 远程 对 象 引 用 。 远 程 对 象 引 用 可 以 作为 


. 远程 方法 调用 的 结果 返回 。 例 如 ， 图 5-12 中 的 对 象 A 可 以 从 对 象 B 得 到 一 个 对 对 象 了 的 远程 引用 。 


当 一 个 动作 导致 一 个 新 的 对 象 被 实例 化 时 ， 这 个 对 象 的 生命 周期 通常 就 是 实例 化 该 对 象 的 进程 的 
生命 周期 ， 例 如 ， 使 用 构造 函数 时 。 如 果 这 个 新 实例 化 的 对 象 有 远程 接口 ， 那 么 它 就 是 一 个 拥有 远程 
对 象 引用 的 远程 对 象 。 

分 布 式 应 用 可 以 提供 一 些 远程 对 象 ， 通 过 这 些 对 象 提供 的 方法 ， 可 以 实例 化 另 一 些 对 象 ， 而 这 些 
新 实例 化 的 对 象 可 以 通过 RMI 来 访问 。 这 种 方式 提供 了 一 种 有 效 的 实例 化 远程 对 象 的 方式 。 例 如 ,在 
图 5-14 中 ,假设 对 象 L 包含 能 生成 远程 对 象 的 方法 ， 则 来 自 对 象 C 和 对 象 K 的 远程 调用 将 分 别 导 致 对 
象 M 和 对 象 N 的 实例 化 。 
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图 5-14 远程 对 象 的 实例 化 


分 布 式 对 象 系统 中 的 无 用 单元 收集 : 如 果 一 个 语言 (例如 Java) 支持 无 用 单元 收集 ， 那么 任何 与 
之 相关 的 RM 系统 也 应 该 支持 远程 对 象 的 无 用 单元 收集 。 分 布 式 无 用 单元 收集 通常 通过 已 有 的 本 地 无 
用 单元 收集 器 和 一 个 执行 分 布 式 无 用 单元 收集 的 附加 模块 (一般 基于 引用 计数 ) 的 协作 来 实现 。 
5.4.3 节 对 此 做 了 详尽 的 描述 。 如 果 语 言 不 支持 无 用 单元 收集 ， 那 么 无 用 的 远程 对 象 应 当 被 删除 。 

AE: 任何 远程 调用 都 可 能 会 因为 被 调用 对 象 的 种 种 原因 而 失败 〈 这 里 被 调用 的 对 象 处 于 与 调用 
对 象 不 同 的 进程 或 计算 机 中 ) 。 例 如 ， 包 含 远 程 对 象 的 进程 可 能 已 经 裔 省 ， 或 者 由 于 太 忙 而 无 法 应 答 ， 
又 或 者 调用 消息 或 结果 消息 丢失 了 。 因 此 ， 远 程 方法 调用 应 该 能 够 引起 异常 ， 例 如 因 分 布 引起 的 超时 
异常 ， 以 及 被 调用 的 方法 执行 期 间 导 致 的 各 种 异常 。 后 者 的 例子 有 超过 文件 末尾 的 读 操 作 ， 或 者 未 经 
正确 授权 的 文件 访问 。 

CORBA IDL 提供 了 指定 应 用 级 异常 的 表示 法 。 当 因为 分 布 而 引起 错误 时 ， 底 层 系 统 生 成 标准 异 
Wo CORBA 客户 程序 要 能 处 理 异常 ， 例 如 ， 一 个 C++ 客户 程序 会 使 用 C++ 中 的 异常 机 制 。 


5. 4.2 RMI 的 实现 


完成 远程 方法 调用 涉及 几 个 独立 的 对 象 和 模块 。 如 图 5-15 所 示 ， 一 个 应 用 级 对 象 A 拥有 一 个 对 B 
的 远程 对 象 引 用 ， 可 以 调用 远程 应 用 级 对 象 B 的 一 个 方法 。 本 节 将 讨论 图 中 每 一 个 组 件 扮演 的 角色 ， 
首先 讨论 通信 和 远程 引用 模块 ， 然 后 讨论 运行 在 模块 上 面 的 RM 软件 。 






amman SAR MMES 。 远程 引用 模块 


图 5-15 在 远程 方法 调用 中 的 代理 和 上 骨架 角色 


除 此 之 外 ， 本 节 将 讨论 以 下 几 个 主题 : 代理 的 创建 、 将 名 字 绑 定 到 它们 的 远程 对 象 引 用 、 对 象 的 
激活 和 钝 化 以 及 根据 远程 对 象 引用 进行 对 象 定位 。 

通信 模块 ”两 个 相互 协作 的 通信 模块 执行 请 求 - 应 答 协 议 ， 它 们 在 客户 和 服务 器 之 间 传 递 请 求 和 
应 答 消息 。 请 求 和 应 答 消息 的 内 容 如 图 5-4 所 示 。 通 信 模 块 只 使 用 前 三 项 ， 即 消息 类 型 、requesttd 和 
被 调用 对 象 的 远程 引用 。operationId 和 所 有 的 编码 与 解码 都 与 下 面 讨论 的 RMI 软件 有 关 。 两 个 通信 模 
块 一 起 负责 提供 一 个 指定 的 调用 语义 ， 例 如 至 多 一 次 。 

服务 器 端 通信 模块 为 被 调用 的 对 象 类 选择 分 发 器 ， 传 输 其 本 地 引用 ， 该 本 地 引用 取 自 远程 引用 模 
块 ， 用 来 替换 请 求 消息 中 的 远程 对 象 标识 符 。 分 发 器 的 作用 将 在 下 面 的 RM 软件 中 讨论 。 

远程 引用 模块 ”远程 引用 模块 负责 在 本 地 对 象 引 用 和 远程 对 象 引用 之 间 进 行 翻译 ， 并 负责 创建 远 
程 对 象 引 用 。 为 履行 其 职责 ， 每 个 进程 中 的 远程 引用 模块 都 有 一 个 远程 对 象 表 ， 该 表 记 录 着 该 进程 的 
本 地 对 象 引 用 和 远程 对 象 引用 (整个 系统 范围 内 ) 的 对 应 关系 。 这 张 表 包括 : 

。 该 进程 拥有 的 所 有 远程 对 象 。 例 如 ， 在 图 5-15 中 ， 远程 对 象 B 会 记录 在 服务 器 端的 表 中 。 
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。 每 个 本 地 代理 。 例 如 ， 在 图 5-15 中 ，B 的 代理 会 记录 在 客户 端的 表 中 。 

代理 的 作用 将 在 下 面 的 RMI 软件 中 讨论 。 远 程 引用 模块 的 动作 如 下 

。 当 远 程 对 象 第 一 次 作为 参数 或 者 结果 传递 时 ， 远 程 引用 模块 创建 一 个 远程 对 象 引用 ， 并 把 它 添 
加 到 表 中 。 

© 当 远 程 对 象 引用 随 请 求 或 应 答 消息 到 达 时 ， 远 程 引用 模块 要 提供 对 应 的 本 地 对 象 引 用 ， 它 可 能 
指向 一 个 代理 ， 也 可 能 指向 一 个 远程 对 象 。 若 远程 对 象 引 用 不 在 表 中 ,那么 RM 软件 就 创建 
一 个 新 的 代理 并 要 求 远 程 引用 模块 将 它 添加 到 表 中 。 

在 为 远程 对 象 引用 进行 编码 和 解码 的 时 候 ， 由 RMI 软件 的 组 件 调用 这 个 模块 。 例 如 ， 当 请 求 消 息 


[210] ”到 达 的 时 候 ， 可 使 用 这 张 表 找 出 调用 了 哪个 本 地 对 象 。 


伺服 器 ”人 向 服 器 是 一 个 提供 了 远程 对 象 主体 的 类 的 实例 。 由 相应 的 骨架 传递 的 远程 请 求 最 终 是 由 体 
服 器 来 处 理 的 。 伺 服 器 存活 于 服务 器 端的 进程 中 。 当 远程 对 象 被 实例 化 时 ， 就 会 生成 一 个 伺服 内， 而 且 
这 些 伺服 器 可 以 一 直 使 用 到 不 再 需要 远程 对 象 为 止 。 最 终 ， 何 服 器 也 将 作为 无 用 单元 被 回收 或 删除 。 

RMI 软件 它 由 位 于 应 用 层 对 象 和 通信 模块 、 远 程 引 用 模块 之 间 的 软件 层 组 成 。 在 图 5-15 中 ， 中 
间 件 对 象 有 如 下 几 种 角色 : 

RE: 代理 的 作用 是 对 调用 者 表现 得 像 调用 本 地 对 象 一 样 ， 从 而 使 远程 方法 调用 对 客户 透明 。 它 
不 执行 调用 ， 而 是 将 调用 放 在 消息 里 传递 给 远程 对 象 。 它 隐藏 了 远程 对 象 引 用 的 细节 、 参 数 的 编码 、 
结果 的 解码 以 及 客户 消息 的 发 送 和 接收 。 对 于 具有 远程 对 象 引用 的 进程 ， 其 中 每 个 远程 对 象 都 有 一 个 
代理 。 代 理 类 实现 它 所 代表 的 远程 对 象 的 远程 接口 定义 的 方法 ， 这 可 以 保证 远程 方法 调用 与 远程 对 象 
的 类 型 相 匹配 。 然 而 ， 代 理 实现 它们 的 方式 则 有 很 大 区 别 。 代 理 中 的 每 个 方法 会 把 一 个 目标 对 象 的 引 
用 、 它 自身 的 methodId 和 它 的 参数 编码 进 一 个 请 求 消息 并 发 送 到 目标 ， 然 后 等 待 应 答 消息 ， 解 码 并 将 
结果 返回 给 调用 者 。 

PRE: 服务 器 对 表示 远程 对 象 的 每 个 类 都 有 一 个 分 发 器 和 骨架 。 在 我 们 的 例子 中 ， 服 务 器 有 远 
程 对 象 B 的 类 的 分 发 器 和 骨架 。 分 发 器 接收 来 自 通信 模块 的 请 求 消息 ， 并 传递 请 求 消息 ， 并 使 用 
methodId 选择 骨架 中 恰当 的 方法 。 分 发 器 和 代理 对 远程 接口 中 的 方法 使 用 相同 的 methodld。 

RR: 远程 对 象 类 有 一 个 骨架 ， 用 于 实现 远程 接口 中 的 方法 。 这 些 方法 与 作为 远程 对 象 的 主体 的 
伺服 器 中 的 方法 极为 不 同 。 一 个 骨架 方法 将 请 求 消息 中 的 参数 解码 ， 并 调用 伺服 器 中 的 相应 方法 。 它 
等 待 调用 完成 ， 然 后 将 结果 和 异常 信息 编码 进 应 答 消 息 ， 传 送 给 发 送 方 代理 的 方法 。 

远程 对 象 引用 以 图 4-13 中 的 形式 编码 ， 其 中 包括 远程 对 象 的 远程 接口 的 信息 ， 例 如 远程 接口 的 名 
字 或 者 远程 对 象 类 。 这 条 信息 能 确定 代理 类 ， 以 便 在 需要 的 时 候 可 以 创建 一 个 新 的 代理 。 例 如 ， 可 以 
通过 把 “_proxy” 添 加 到 远程 接口 名 中 来 创建 代理 类 名 。 

创建 代理 类 、 分 发 器 类 和 骨架 类 ”在 RMI 使 用 的 代理 类 、 分 发 器 类 和 骨架 类 由 接口 编译 器 自动 创 
建 。 例 如 ， 在 CORBA 的 Orbis 实现 中 ， 远 程 对 象 的 接口 以 CORBA IDL 定义 ， 而 接口 编译 器 能 用 C++ 
或 Java 语言 创建 代理 类 、 分 发 器 类 和 骨架 类 [www. iona. com] 。 对 于 Java RMI， 由 远程 对 象 提供 的 方 
法 集合 被 定义 为 一 个 Java 接口 ， 它 是 在 远程 对 象 类 中 实现 的 。Java RMI 编译 器 根据 远程 对 象 类 创建 代 
理 类 、 分 发 器 类 和 骨架 类 。 

动态 调用 : 可 替换 代理 的 选择 上面 提 到 的 代理 是 静态 的 ， 即 代理 类 是 通过 接口 定义 生成 的 ， 并 
且 被 编译 到 客户 端的 代码 中 。 但 在 有 些 情况 下 ， 这 是 不 实际 的 。 例 如 ， 如 果 一 个 远程 引用 指向 了 客户 
端 程序 中 的 对 象 ， 而 这 个 对 象 的 远程 接口 在 编译 时 是 不 能 确定 的 。 在 这 种 情况 下 ， 需 要 采用 其 他 的 方 
法 调用 该 远程 对 象 ， 这 就 称 为 动态 调用 。 客 户 应 用 程序 可 以 通过 动态 调用 获得 远程 调用 的 一 般 性 表示 ， 
例如 练习 5. 18 中 的 DoOperation 方法 ， 这 个 方法 是 RM 的 基础 体系 结构 的 一 部 分 〈 参 见 第 5.4.1 节 )。 
客户 端 会 提供 远程 对 象 引 用 、 方 法 名 和 DoOperation 方法 的 参数 ， 然 后 等 待 接 收 结果 。 

需要 注意 的 是 ， 尽 管 远 程 对 象 引用 包含 远程 对 象 接口 的 信息 ， 例 如 远程 对 象 接口 的 名 字 。 但 是 这 
些 信息 是 不 够 的 ， 因 为 动态 调用 还 需要 知道 远程 对 象 接口 的 方法 名 和 参数 的 类 型 。 在 第 8 章 ， 我 们 将 
会 看 到 ，CORBA 使 用 一 个 称 为 Interface Repository 的 组 件 来 提供 所 需 的 信息 。 

将 动态 调用 接口 作为 代理 并 不 方便 ， 但 如 果 应 用 程序 中 的 某 些 远 程 对 象 的 接口 不 能 在 设计 时 确定 ， 
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那么 动态 调用 接口 就 会 非常 有 用 。 例 如 ， 这 种 应 用 的 一 个 例子 是 我 们 在 描述 Java RMI (参见 第 5.5 
节 ) 、CORBA (参见 第 8 章 ) 和 Web 服务 (参见 第 9.2.3 节 ) 时 给 出 的 共享 白板 。 共 享 白 板 这 个 应 用 
程序 能 够 显示 各 种 图 形 ， 例 如 圆 、 抢 形 和 直线 ， 但 是 它 也 应 当 能 够 显示 那些 客户 端 编译 时 没有 预先 定 
义 的 图 形 。 客 户 端 可 以 通过 动态 调用 解决 这 个 难题 。 在 5.5 节 中 ， 我 们 还 可 以 看 到 ， 在 Java RMI 中 客 
户 端 可 以 通过 动态 的 下 载 类 的 方法 来 代 蔡 动态 调用 。 

动态 骨架 : 从 上 面 的 例子 中 ， 我 们 可 以 清楚 地 看 到 ， 服 务 器 有 时 需要 驻 留 那 些 接口 在 编译 时 尚 不 
能 确定 的 远程 对 象 。 例 如 ， 运 行 共享 白板 程序 的 服务 器 需要 保存 客户 提供 的 新 的 图 形 。 使 用 动态 骨架 
的 服务 器 便 能 够 解决 这 种 问题 。 我 们 将 在 第 8 章 中 描述 动态 骨架 。 在 5.5 节 我 们 会 看 到 ， 利 用 一 个 普 
通 的 分 发 器 将 类 动态 地 下 载 到 服务 器 ，Java RMI 便 可 以 解决 这 个 问题 。 

服务 器 和 客户 程序 ”服务 器 程序 包含 分 发 器 类 和 骨架 类 ， 以 及 它 支 持 的 所 有 伺服 器 类 的 实现 。 另 
外 ， 服 务 器 程序 包含 初始 化 部 分 (例如 ,在 Java 或 C++ 中 的 main 方法 里 ) 。 初 始 化 部 分 负责 创建 并 初 
始 化 至 少 一 个 驻 留 在 服务 器 上 的 伺服 器 ， 其 余 的 伺服 器 可 以 应 客户 发 出 的 请 求 而 创建 。 初 始 化 部 分 也 
可 以 用 一 个 绑 定 程序 (参见 后 文 ) 注册 它 的 一 些 伺 服 拓 。 通 常情 况 下 ， 它 只 注册 一 个 伺服 如 ,该 伺服 
器 可 以 用 来 访问 其 他 对 象 。 

客户 程序 会 包含 它 将 调用 的 所 有 远程 对 象 的 代理 类 ， 它 用 一 个 绑 定 程序 查找 远程 对 象 引用 。 

工厂 方法 ; 我 们 早 就 注意 到 远程 对 象 接口 不 能 包括 构造 子 。 这 意味 着 伺服 器 不 能 通过 对 构造 函数 
的 远程 调用 来 创建 。 何 服 器 可 以 在 初始 化 部 分 创建 ， 也 可 以 在 为 该 用 途 而 设计 的 远程 接口 中 创建 。 术 
语 工厂 方法 有 时 指 创建 伺服 器 的 方法 ， 工 厂 对 象 指 具有 工厂 方法 的 对 象 。 任 何 远程 对 象 ， 它 要 想 能 应 
客户 的 需求 而 创建 新 的 远程 对 象 ， 就 必须 在 它 的 远程 接口 中 提供 用 于 此 用 途 的 方法 。 这 样 的 方法 称 为 
工厂 方法 ， 尽 管 实 际 上 它们 也 是 普通 的 方法 。 

HERF ”客户 程序 通常 要 有 一 种 手段 ， 以 便 获 得 服务 器 端 至 少 一 个 远程 对 象 的 远程 对 象 引用 。 
例如 ， 在 图 5-12 中 ， 对 象 A 要 求 对 象 B 的 一 个 远程 对 象 引用 。 分 布 式 系统 中 的 绑 定 程序 就 是 一 个 单独 
的 服务 ， 它 维护 着 -- 张 表 ， 表 中 包含 从 文本 名 字 到 远程 对 象 引 用 的 映射 。 服 务 器 用 该 表 来 按 名 字 注册 
远程 对 象 ， 客 户 用 它 来 查找 这 些 远程 对 象 。 第 8 章 将 讨论 CORBA 命名 服务 。Java 绑 定 程序 ， 即 
RMIregistry， 将 在 第 5.5 节 的 Java RMI 实例 研究 中 简要 讨论 。 

服务 器 线程 ”一 旦 对 象 执行 远程 调用 ， 该 调用 可 能 会 涉及 调用 其 他 远程 对 象 的 方法 ， 因 此 可 能 需要 
过 一 段 时 间 才 会 返回 。 为 了 避免 一 个 远程 调用 的 执行 延误 另 一 个 调用 的 执行 ， 服务 器 一 般 为 每 个 远程 调 
用 的 执行 分 配 一 个 独立 的 线程 。 这 时 ， 远 程 对 象 实现 的 设计 者 必须 考虑 到 并 发 执行 状态 产生 的 影响 。 

远程 对 象 的 激活 ”有些 应 用 要 求 信息 能 长 时 间 地 保留 ， 然 而 ， 让 表示 这 一 信息 的 对 象 无 限期 地 保 
留 在 运行 的 进程 中 是 不 切实 际 的 ， 因 为 并 不 是 在 所 有 的 时 间 都 要 使 用 它们 。 为 了 避免 因为 在 全 部 时 间 
里 运行 管理 这 些 远程 对 象 的 服务 器 造成 潜在 的 资源 浪费 ， 服 务 器 应 该 在 客户 需要 它们 的 任何 时 候 启 动 ， 
就 像 TCP 服务 的 标准 集 (如 FTP) 那样 ，Inetd 服务 会 根据 需要 才 启 动 FIP。 启 动用 于 驻 留 远程 对 象 的 
服务 器 的 进程 被 称 为 激活 器 ， 原 因 如 下 。 

当 一 个 远程 对 象 在 一 个 运行 的 进程 中 可 供 调用 时 ， 就 认为 它 是 主动 的 ; 如 果 它 现在 不 是 主动 的 但 
是 可 以 激活 为 主动 的 ， 就 认为 它 是 被 动 的 。 一 个 被 动 对 象 包括 两 个 部 分 : 

1) 它 的 方法 的 实现 。 

2) 它 的 编码 格式 的 状态 。 

激活 是 指 根据 相应 的 被 动 对 象 创建 一 个 主动 对 象 ， 具 体 方法 是 创建 被 动 对 象 类 的 一 个 新 实例 并 根据 
存储 的 状态 初始 化 它 的 实例 变量 。 被 动 对 象 可 以 根据 要 求 被 激活 ， 例 如 当 它 们 被 其 他 对 象 调用 的 时 候 。 

激活 器 负责 : 

。 注册 可 以 被 激活 的 被 动 对 象 ， 这 涉及 记录 服务 器 名 字 ， 而 不 是 相应 被 动 对 象 的 URL 或 者 文件 名 。 

。 启动 已 命名 的 服务 器 进程 并 激活 进程 中 的 远程 对 象 。 

e 跟踪 已 经 激活 的 远程 对 象 所 在 的 服务 器 位 置 。 

Java RMI 具有 将 一 些 远程 对 象 变 为 可 激活 【java. sun. com IX] 的 能 力 。 当 一 个 可 激活 对 象 被 调用 
时 ， 如 果 这 个 对 象 的 当前 状态 不 是 激活 状态 ， 那 么 这 个 对 象 将 从 它 的 编码 状态 转化 为 激活 状态 ， 然 后 
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执行 调用 。 它 在 每 一 个 服务 只 机 器 中 都 使 用 一 个 激活 哄 。 

CORBA 实例 研究 中 描述 了 它 的 实现 仓库 一 一 一 种 弱 形 式 的 激活 器 ， 它 在 初始 状态 下 激活 含有 对 象 
的 服务 。 

持久 对 象 存储 ”那些 在 进程 两 次 激活 之 间 仍 然 保证 存活 的 对 象 称 为 持久 对 象 。 持 久 对 象 一 般 由 持 
久 对 象 存储 来 管理 ， 它 在 磁盘 上 以 编码 格式 存储 持久 对 象 的 状态 ， 如 CORBA 持久 状态 服务 〈 见 第 8 
章 ) 、Java Data Objects[ java. sun. com VIII] 和 Persistent Java[ Jordan 1996, java. sun. com IV] 。 

一 般 来 说 ， 持 久 对 象 存 储 将 管理 海量 的 持久 对 象 ， 这 些 持 久 对 象 都 存储 在 磁盘 或 数据 库 中 ， 直 到 
需要 它们 的 时 候 才 被 调用 。 当 这 些 持久 对 象 的 方法 被 其 他 对 象 调 用 的 时 候 ， 它 们 就 会 被 激活 。 激 活 一 
般 设 计 为 透明 的 ， 也 就 是 说 ， 调 用 者 应 该 不 能 判断 一 个 对 象 是 已 经 在 主 存 中 ， 还 是 在 其 方法 被 调用 之 
前 已 经 被 激活 。 主 存 中 不 再 需要 的 持久 对 象 要 变 成 被 动 的 。 在 大 多 情况 下 ， 为 了 容错 起 见 ， 对 象 只 要 
达到 一 个 一 致 的 状态 ， 就 能 够 保存 在 持久 对 象 存 储 中 。 持 久 对 象 存储 需要 一 个 决定 何 时 钝 化 对 象 的 策 
略 。 例 如 ， 它 可 能 会 在 激活 对 象 的 程序 中 为 响应 某 个 请 求 〈 如 在 事务 结束 或 者 程序 退出 的 时 候 ) 而 这 
样 做 。 持 久 对 象 存储 一 般 要 对 钝 化 进行 优化 ， 即 只 保存 那些 自 上 次 保存 以 来 修改 过 的 对 象 。 

持久 对 象 存储 一 般 允 许 相关 持久 对 象 集 具 有 可 读 的 名 字 ， 例 如 路 径 名 或 者 URL。 实 际 上 ， 每 个 可 
读 的 名 字 都 与 相关 的 持久 对 象 集 的 根 有 关 。 

有 两 种 方法 可 以 判断 一 个 对 象 是 否 是 持久 的 : 

© 持久 对 象 存储 维护 一 些 持 久 根 ， 任 何 可 以 通过 持久 根 访问 到 的 对 象 都 被 定义 为 持久 的 。 这 种 方 

法 被 Persistent Java, Java Data Objects 和 PerDis[ Ferreira et al. 2000] 采用 。 它 们 使 用 无 用 单元 收 
集 器 史 除 从 持久 根 不 再 可 达 的 对 象 。 

。 持久 对 象 存储 提供 一 些 持久 类 一 一 持久 对 象 属于 它们 的 子 类 。 例 如 在 Arjuna[ Parrington et 

al. 1995] 中 ， 持 久 对 象 基于 提供 事务 和 恢复 的 C++ 类。 不 想 要 的 对 象 必 须 被 显 式 地 删除 。 

有 些 持久 对 象 存储 ， 例 如 PerDis 和 Khazana[ Carter et al. 1998] 允许 对 象 在 用 户 的 多 个 本 地 缓存 中 
激活 ， 而 不 是 在 服务 器 中 激活 。 在 这 种 情况 下 ， 就 要 求 有 缓存 一 致 性 协议 。 在 第 4 版 有 关 分 布 式 共 享 
内 存 的 那 章 可 以 找到 关于 一 致 性 模型 的 更 多 细节 [www. edk5 ，nedsmj] 。 

对 象 定位 4.3.4 节 描述 了 一 种 远程 对 象 引 用 ， 它 包含 创建 远程 对 象 的 进程 的 互联 网 地 址 和 端口 
号 ， 用 以 作为 保证 唯一 性 的 一 种 方式 。 这 种 形式 的 远程 对 象 引 用 也 能 用 作 远 程 对 象 的 地 址 ， 只 要 该 对 
象 在 余下 的 生命 周期 中 存在 于 相同 的 进程 里 。 但 是 ， 有 些 远程 对 象 在 其 整个 生命 周期 里 会 存在 于 一 系 
列 不 同 的 进程 中 ， 可 能 这 些 进 程 存 在 于 不 同 的 计算 机 中 。 在 这 种 情况 下 ， 远 程 对 象 引 用 不 能 当做 地 址 
用 。 发 出 调用 的 客户 同时 需要 一 个 远程 对 象 引 用 和 一 个 调用 发 送 到 的 地 址 。 

定位 服务 帮助 客户 根据 远程 对 象 引用 定位 远程 对 象 。 它 使 用 了 一 个 数据 库 ， 该 数据 库 用 于 将 远程 
对 象 引用 映射 到 它们 当前 的 大 概 位 置 一 一 位 置 是 大 概 的 , ,因为 对 象 可 能 已 经 从 已 知 的 前 一 次 位 置 迁 移 
了 。 例如 Clouds 系统 [Dasgupta et al. 1991] 和 Emerald 系统 [Jul et al. 1988] 使 用 缓存 /广播 方案 ,其 
中 每 个 计算 机 上 的 定位 服务 的 一 个 成 员 拥 有 一 个 小 缓存 ， 存 放 远 程 对 象 引用 -位 置 的 上 映像。 如果 远程 
对 象 引用 位 于 缓存 中 ， 就 尝试 用 那个 地 址 调用 ， 但 是 如 果 对 象 已 经 移动 了 ， 调 用 就 会 失败 。 为 了 定位 
一 个 已 经 移动 的 对 象 或 者 位 置 不 在 缓存 中 的 对 象 ， 系 统 要 广播 一 条 请 求 。 要 改善 该 方案 ， 可 以 使 用 转 
发 定位 指针 ， 转 发 定位 指针 含有 关于 对 象 的 新 位 置 的 提示 。 在 9.1 节 中 ,我 们 将 给 出 另 一 个 例子 ， 即 
将 一 个 资源 的 URN 转换 为 它 当 前 的 URL 的 解析 服务 。 


5.4.3 ”分 布 式 无 用 单元 收集 


分 布 式 无 用 单元 收集 器 的 目的 是 提供 以 下 保证 : 如 果 一 个 本 地 对 象 引用 或 者 远程 对 象 引 用 还 在 分 
布 式 对 象 集合 中 的 任何 地 方 ， 那 么 该 对 象 本 身 将 继续 存在 ， 但 是 在 没有 任何 对 象 引 用 它 时 ， 该 对 象 将 
被 收集 ， 并 且 它 使 用 的 内 存 将 被 回收 。 

我 们 将 描述 Java 的 分 布 式 无 用 单元 收集 算法 ， 它 与 Birel 等 [1995] 描述 过 的 算法 很 相似 。 它 基 
于 引用 计数 。 一 旦 一 个 远程 对 象 引用 进入 一 个 进程 ， 进 程 就 会 创建 一 个 代理 ， 只 要 需要 这 个 代理 , E 
就 一 直 存在 。 对 象 生存 的 进程 〈 它 的 服务 器 ) 应 该 告知 给 客户 上 的 新 代理 。 随 后 当 客户 不 再 有 代理 
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时 ， 也 应 告知 服务 器 。 分 布 式 无 用 单元 收集 器 与 本 地 无 用 单元 收集 器 按 如 下 的 方式 协作 : 
。 每 个 服务 器 进程 为 它 的 每 个 远程 对 象 维护 拥有 远程 对 象 引 用 的 一 组 进程 名 ， 例 如 ，B. holders 
是 具有 对 象 B 的 代理 的 客户 进程 (虚拟 机 ) 的 集合 。( 在 图 5-15 中 ， 这 个 集合 包括 图 示 的 客户 
进程 。) 这 个 集合 可 以 放 在 远程 对 象 表 的 一 个 附加 列 里 。 
。 XEM 5C 第 一 次 接收 到 远程 对 象 B 的 远程 引用 时 ， 它 发 出 一 个 addRef(B) 调用 到 远程 对 象 的 服 
务 器 并 创建 一 个 代理 ， 服 务 器 将 C 添加 到 B. holders, 

。 MEP C 的 无 用 单元 收集 器 注意 到 远程 对 象 B 的 一 个 代理 不 再 可 达 时 ， 它 发 出 一 个 removeRef (B) 
调用 到 相应 的 服务 器 ， 然 后 删除 该 代理 ， 服 务 器 从 B. holders 中 删除 C。 

。 如果 不 存在 B 的 一 些 本 地 持 有 者 ， 当 B. holders 为 空 时 ， 服 务 器 的 本 地 无 用 单元 收集 器 将 回收 
被 B 占有 的 空间 。 

通过 在 进程 中 远程 引用 模块 之 间 采 用 至 多 一 次 调用 语义 的 请 求 - 应 答 通 信 可 实现 该 算法 一 一 它 不 
要 求 任何 全 局 同步 。 但 要 注意 ， 为 无 用 单元 收集 算法 所 发 送 的 额外 调用 不 能 影响 到 每 个 正常 的 RML， 
它们 只 在 代理 创建 和 删除 的 时 候 发 生 。 

有 一 种 可 能 ， 在 一 个 客户 发 出 一 个 removeRef(B) 调用 的 同时 ， 另 一 个 客户 恰好 发 出 addRef(B) 
调用 。 若 removeRef 调用 先 到 达 而 此 时 B. holders 为 空 ， 那 么 远程 对 象 B 可 能 会 在 addRef 调用 到 来 之 前 
被 删除 。 为 避免 这 种 情况 ， 当 传递 远程 对 象 引 用 的 时 候 ， 如 果 B. holders 集合 是 空 的 ， 就 添加 一 个 临时 
的 入口 直至 addRef 调用 到 达 为 止 。 

Java 分 布 式 无 用 单元 收集 算法 通过 使 用 下 面 的 方法 可 以 容忍 通信 故障 。addRef 和 removeRef 操作 是 
eS, 4 addRef(B) 调用 返回 一 个 异常 (意味 着 该 方法 要 么 执行 过 一 次 ,要么 根本 没有 执行 ) 时 ， 
客户 不 创建 代理 而 是 发 出 一 个 removeRef(B) 调用 。removeRef 的 效果 是 否 正确 取决 于 addRef 是 否 成 
功 。removeRef 失败 的 情况 通过 租借 来 处 理 ， 如 下 文 所 述 。 

Java 分 布 式 无 用 单元 收集 算法 可 以 容忍 客户 进程 的 故障 。 为 做 到 这 点 ， 服 务 器 将 它们 的 对 象 租 借 
给 客户 一 段 有 限 的 时 间 。 租 借 期 从 客户 给 服务 器 发 出 addRef 调用 开始 ， 到 达 过 期 时 间 后 终止 或 者 客户 
给 服务 器 发 出 一 个 removeRef 调用 后 终止 。 存 储 在 服务 器 端的 关于 每 个 租借 的 信息 包括 客户 虚拟 机 的 标 
识 符 和 租 期 。 客 户 负责 在 租 期 过 期 之 前 向 服务 器 请 求 续 借 。 

Jini HABE Jini 分 布 式 系 统 包 括 一 个 租借 规约 【Arnold et al. 1999 ] ， 它 可 以 用 于 一 个 对 象 给 另 
一 对 象 提供 一 种 资源 的 各 种 情形 ， 例 如 远程 对 象 提供 引用 给 其 他 对 象 。 提 供 这 种 资源 的 对 象 要 冒 一 些 
风险 ， 即 在 用 户 不 再 对 其 感 兴趣 或 者 它们 的 程序 可 能 已 经 退出 的 情况 下 ， 对 象 将 不 得 不 维护 该 资源 。 
为 了 避免 用 复杂 的 协议 判断 资源 用 户 是 否 还 有 兴趣 ， 资 源 只 提供 一 段 有 限 长 的 时 间 。 人 允许 在 一 段 时 间 
内 使 用 资源 的 授权 称 为 租借 。 提 供 资 源 的 对 象 会 负责 维护 它 直 到 租 期 结束 。 资 源 的 用 户 负 责 在 过 期 的 
时 候 请 求 延 续 它们 的 租约 。 

授权 者 与 租借 者 可 以 就 租 期 进行 磋商 ， 当 然 这 不 会 发 生 在 Java RM 所 使 用 的 租借 中 。 表 示 租 借 的 
对 象 实现 Lease 接口 ， 该 接口 包含 关于 租 期 的 信息 和 能 令 租借 延续 或 取消 的 方法 。 授 权 者 在 提供 一 种 
资源 给 另 一 对 象 的 时 候 返 回 一 个 Lease 的 实例 。 


5.5 实例 研究 ，Java RMI 


Java RMI 扩展 了 Java 的 对 象 模型 , 以便 为 Java 语言 中 的 对 分 布 式 对 象 提供 支持 。 特 别 是 ， 它 允许 
对 象 用 与 本 地 调用 相同 的 语法 调用 远程 对 象 上 的 方法 。 而 且 ， 类 型 检查 也 等 效 地 应 用 到 本 地 调用 和 远 
程 调 用 。 然 而 ， 发 出 远程 调用 的 对 象 知道 它 的 目标 对 象 是 远程 的 ， 因 为 它 必 须 处 理 RemoteException; 并 
且 远 程 对 象 的 实现 者 也 知道 它 是 远程 的 ， 因 为 它 必须 实现 Remote 接口 。 尽 管 分 布 式 对 象 模型 以 一 种 自然 
的 方式 集成 到 了 Java 中 ,但 是 由 于 调用 者 和 目标 对 象 彼 此 是 远程 的 ， 因 此 其 参数 传递 语义 是 不 相同 的 。 
用 Java RMI 进行 分 布 式 应 用 的 编程 相对 来 说 较为 容易 ， 因 为 它 是 一 个 单 语言 系统 一 一 远程 接口 用 
Java 语言 定义 。 如 果 使 用 一 个 多 语言 系统 (如 CORBA) ， 程 序 员 就 需要 学 习 IDL， 并 理解 它 如 何 映像 到 
实现 语言 中 。 不 过 ， 即 使 在 一 个 单 语 言 系统 中 ， 远 程 对 象 的 程序 员 也 必须 考虑 它 在 并 发 环境 下 的 行为 。 
下 面 我 们 给 出 一 个 远程 接口 的 例子 ， 然 后 讨论 与 该 例子 有 关 的 参数 传递 语义 ， 最 后 ， 我 们 讨论 类 
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的 下 载 和 绑 定 程序 。 接 下 来 讨论 如 何 为 该 例子 接口 创建 客户 和 服务 器 程序 。 然 后 研究 Java RMI 的 设计 
和 实现 。 关 于 Java RMI 的 详细 介绍 ， 请 参见 关于 远程 调用 的 教程 [java. sun. com I] 。 

在 这 个 实例 研究 和 第 8 章 的 CORBA 实例 研究 ， 以 及 第 9 章 中 关于 Web 服务 的 研究 中 ， 我 们 均 使 
用 共享 白板 作为 例子 。 这 是 一 个 允许 一 组 用 户 共享 一 个 绘图 区 域 的 分 布 式 程序 ， 该 绘图 区 域 可 以 包含 
图 形 对 象 ， 例 如 和 矩形 、 线 、 圆 等 ， 每 个 图 形 由 一 个 用 户 绘制 。 服 务 器 为 了 维护 绘图 当前 的 状态 ， 为 客 
户 提供 一 个 操作 ， 用 于 把 用 户 最 新 绘制 的 图 形 告 诉 服 务 咒 ， 并 记录 它 接收 到 的 所 有 图 形 。 服 务 器 也 提 
供 相应 操作 ， 让 客户 通过 轮 询 服务 器 的 方式 获取 由 其 他 用 户 绘制 的 最 新 图 形 。 服 务 器 具有 一 个 版 本 号 
(一 个 整数 ) ， 每 当 新 图 形 到 达 的 时 候 ，, 版 本 号 就 递增 ， 并 赋予 给 该 新 图 形 。 服 务 器 还 提供 有 关 操 作 ， 
让 客户 询问 它 的 版 本 号 和 每 个 图 形 的 版 本 号 ， 以 避免 客户 取 到 它们 已 经 有 的 图 形 。 

Java RMI 中 的 远程 接口 ”远程 接口 通过 扩展 一 个 在 java. mi 包 中 提供 的 称 为 Remote 的 接口 来 定 
义 。 方 法 必须 抛 出 RemoteException 异常 ,但 是 也 可 以 抛 出 特定 于 应 用 的 异常 。 图 5-12 给 出 两 个 远程 接 
口 Shape 和 ShapeList。 在 这 个 例子 中 ，GraphicalObject 是 一 个 拥有 图 形 对 象 状态 (如 类 型 、 位 置 、 外 接 
矩形、 线条 颜色 和 填充 颜色 ) 的 类 ,该 类 提供 访问 和 更 新 图 形 对 象 状态 的 操作 。GraphicalObject 必须 
实现 Serializable 接口 。 首 先 考虑 Shape 接口 ， getVersion 方法 返回 一 个 整数 ， 而 getAliState 方法 返回 
GraphicalObject 类 的 一 个 实例 。 现 在 考虑 ShapeList 接口 。 它 的 newShape 方法 将 GraphicalObject 类 的 一 
个 实例 作为 参数 传递 ， 并 将 一 个 带 有 远程 接口 的 对 象 〈( 即 一 个 远程 对 象 ) 作为 结果 返回 。 需 要 注意 的 
重要 一 点 是 ， 普 通 对 象 和 远程 对 象 都 可 以 作为 远程 接口 中 的 参数 和 结果 。 后 者 总 是 以 它们 的 远程 接口 
名 来 表示 。 在 后 文中 ， 我 们 讨论 普通 对 象 和 远程 对 象 怎样 作为 参数 和 结果 传递 。 

传递 参数 和 结果 ”在 Java RM F, 假定 方法 的 参数 为 输入 型 的 参数 ， 而 方法 的 结果 是 一 个 输出 型 
参数 。4. 3. 2 节 讲 述 了 Java 序列 化 ， 它 用 于 编码 Java RM 中 的 参数 和 结果 。 任 何 可 序列 化 的 对 象 (BR 
它 实现 了 Serializable 接口 ) 都 能 作为 Java RMI 中 的 参数 或 结果 传递 。 所 有 的 简单 类 型 和 远程 对 象 都 是 
可 序列 化 的 。 在 必要 的 时 候 ， 作 为 参数 和 结果 值 的 类 可 以 由 RMI 系统 下 载 给 接收 者 。 

传递 远程 对 象 ， 当 将 参数 类 型 或 者 结果 值 类 型 定义 为 远程 接口 的 时 候 ， 相 应 的 参数 或 者 结果 总 
是 作为 远程 对 象 引 用 传递 。 例如， 在 图 5- 16 的 第 2 行 中 ，newShape 方法 的 返回 值 就 定义 为 
Shape 一 一 一 个 远程 接口 。 当 接收 到 一 个 远程 对 象 引用 时 ， 它 就 可 用 于 在 它 所 指 的 远程 对 象 上 进行 
RMI 调用 了 。 








import java.rmi.*; 
import java.util. Vector; 
public interface Shape extends Remote { 
int getVersion() throws RemoteException, 
GraphicalObject getAliState() throws RemoteException; I 


2} 

public interface ShapeList extends Remote { 
Shape newShape(GraphicalObject g) throws RemoteException; 2 
Vector allShapes() throws RemoteException; 
int getVersion() throws RemoteException; 











图 5-16 Java 远程 接口 Shape 和 ShapeList 


传递 非 远程 对 象 : 所 有 可 序列 化 的 非 远 程 对 象 是 在 复制 之 后 以 值 方式 传递 。 例 如 ,在 图 5-16【〈 第 
2 行 和 第 1 行 ) 中 ，newShape 的 参数 和 getAllState 的 返回 值 都 是 GraphicalObject 类 型 ， 它 是 可 序列 化 的 
并 且 以 值 方式 传递 。 当 一 个 对 象 以 值 方式 传递 时 ， 就 要 在 接收 者 的 进程 中 创建 一 个 新 对 象 。 这 个 新 对 
象 的 方法 可 以 在 本 地 调用 ， 但 这 可 能 导致 它 的 状态 与 发 送 者 进程 中 原来 的 对 象 状 态 不 同 。 

这 样 ， 在 我 们 的 例子 中 ， 客 户 使 用 newShape 方法 给 服务 器 传递 一 个 GraphicalObject 实例 。 服 务 器 
创建 一 个 包含 GraphicalObject 状态 的 Shape 类 型 的 远程 对 象 ， 并 返回 一 个 它 的 远程 对 象 引 用 。 远 程 调用 
中 的 参数 和 返回 值 用 4. 3. 2 节 描 述 的 方法 被 序列 化 到 一 个 流 中 ， 并 有 以 下 改变 ; 

1) 一 旦 一 个 实现 Remote 接口 的 对 象 被 序列 化 ， 它 就 被 它 的 远程 对 象 引 用 代替 ， 该 远程 对 象 引用 
包含 它 〈 远 程 对 象 ) 的 类 的 名 字 。 
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2) 任何 一 个 对 象 被 序列 化 的 时 候 ， 它 的 类 信息 就 加 注 了 该 类 的 地 址 (作为 一 个 URL) ， 使 该 类 能 
由 接收 者 下 载 。 

类 的 下 载 Java 允许 类 从 一 个 虚拟 机 下 载 到 另 一 个 虚拟 机 ， 这 与 以 远程 调用 方式 通信 的 分 布 式 对 
象 尤 其 相关 。 我 们 已 经 看 到 ， 非 远程 对 象 以 值 方式 传递 ， 而 远程 对 象 以 引用 方式 传递 RM 的 参数 和 结 
果 。 如 果 接 收 者 还 没 拥有 以 值 方式 传递 的 对 象 类 ， 那 么 它 就 会 自动 下 载 类 的 代码 。 类 似 地 ， 如 果 远 程 
对 象 引 用 的 接收 者 还 没 拥有 代理 类 ， 那 么 代理 类 的 代码 也 会 自动 下 载 。 这 样 做 有 两 个 好 处 : 

1) 不 必 为 每 个 用 户 在 他 们 的 工作 环境 中 保留 相同 类 的 集合 。 

2) 一 旦 添加 了 新 类 ， 客 户 和 服务 器 程序 能 透明 地 使 用 它们 的 实例 。 

例如 ， 考 虑 白板 程序 并 假设 CraphicalObject 的 初始 实现 没有 考虑 到 文本 ， 那 么 一 个 带 有 文本 对 象 
的 客户 就 会 实现 GraphicalObject 的 一 个 子 类 ， 用 以 处 理 文本 ， 并 将 其 实例 作为 newShape 方法 的 参数 传 
递 到 服务 器 上 。 之 后 ， 其 他 客户 能 够 使 用 getAllState 方法 获取 这 个 实例 。 新 类 的 代码 将 自动 地 从 第 一 
个 客户 下 载 到 服务 器 ， 然 后 再 下 载 到 其 他 需要 的 客户 。 

RMIregistry RMlregistry 是 Java RMI 的 绑 定 程序 。RMIregistry 的 一 个 实例 必须 运行 在 每 个 驻 留 了 
远程 对 象 的 服务 器 计算 机 上 。 它 维护 着 一 张 表 ， 将 文本 格式 的 、URL 风格 的 名 字 映 像 到 驻 留 在 该 计算 
机 上 的 远程 对 象 引 用 。 它 通过 Naming 类 的 方法 来 存 取 ，Naming 类 的 方法 以 一 个 URL 格式 的 字符 串 作 
为 参数 : 

// computerName ;port/objectName 

JL, computerName 和 port 指向 RMlregistry 的 地 址 。 如 果 它 们 被 省 略 的 话 ， 就 被 认为 是 本 地 计算 
机 和 默认 端口 。RMIregistry 的 接口 提供 如 图 5-17 所 示 的 方法 ,该 方法 中 没有 列 出 异常 一 一 所 有 的 方法 
都 可 以 抛 出 RemoteException 异常 。 
void rebind (String name, Remote obj) 

服务 器 用 这 个 方法 以 名 字 注 册 一 个 远程 对 象 的 标识 符 ， 如 图 5-18 的 第 3 行 所 示 。 


void bind (String name, Remote obj) 
服务 器 可 以 选择 使 用 这 个 方法 以 名 字 注 册 一 个 远程 对 象 ， 但 是 如 果 该 名 字 已 经 绑 定 
到 了 一 个 远程 对 象 引用 上 ， 那 么 它 会 抛 出 一 个 异常 。 
void unbind (String name, Remote obj) 
这 个 方法 删除 一 个 绑 定 。 
Remote lookup(String name) 
客户 可 以 使 用 这 个 方法 以 名 字 查 找 一 个 远程 对 象 ， 如 图 5-20 的 第 ! 行 所 示 。 
它 返 回 一 个 远程 对 象 引 用 。 
String [] listQ 
这 个 方法 返回 一 个 Strings 数 组 ， 该 数组 包含 绑 定 到 注册 表 里 的 名 字 。 














图 5-17 Java RMIregistry 的 Naming 类 


使 用 用 这 种 方式 ， 客 户 必须 定向 它们 lookup 查询 请 求 到 特定 主机 。 或 者 ， 也 可 能 在 整个 系统 范围 内 
的 构建 一 个 绑 定 服务 。 为 此 ， 必 须 在 网 络 环境 下 运行 RMIegistry 实例 ， 然 后 通过 使 用 java. rmi. registry 包 
中 提供 的 LocateRegistry 类 发 现 此 注册 表 。 具 体 来 说 ， 该 类 包含 了 一 个 getRegistry 方法 ， 它 能 返回 一 个 
代表 远程 绑 定 服务 的 Registry 类 型 的 对 象 。 

public static Registry getRegistry( ) throws RemoteException 


然后 ， 就 必须 在 返回 的 Registry 上 使 用 rebind 方法 ， 建 立 与 该 远程 RMIregistry 的 连接 。 


5.5.1 创建 客户 和 服务 器 程序 


本 节 将 以 图 5-16 所 示 的 远程 接口 Shape 和 ShapeList 为 例 ， 概 述 创建 使 用 远程 接口 的 客户 和 服务 器 
程序 的 步骤。 服务 器 程序 是 实现 Shape 和 ShapeList 接口 的 白板 服务 器 的 简化 版 本 。 我 们 描述 一 个 简单 
的 轮 询 客户 程序 ， 然 后 介绍 回调 技术 ， 它 可 用 于 避免 轮 询 服务 器 。 本 节 阑 述 的 这 几 个 类 的 完整 版 本 可 
以 参见 www. cdk5. net/rmi, 

”服务 器 程序 ”服务 器 是 一 个 白板 服务 器 ， 它 把 每 种 图 形 表示 成 一 个 实现 Shape 接口 的 伺服 器 ， 它 
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拥有 图 形 对 象 的 状态 和 它 的 版 本 号 ; 它 以 另 一 个 实现 ShapeList 接口 的 何 服 器 代表 它 的 图 形 集 ， 并 把 图 
形 集 存 放 在 Vector 中 。 
为 实现 它 的 每 个 远程 接口 ， 服 务 器 包括 一 个 main 方法 和 一 个 何 服 器 (Servant) 类 。 图 5-18 描述 
了 该 服务 器 类 的 main 方法 ， 同 时 在 第 1 行 到 第 4 行 中 包含 了 关键 的 步骤 : 
。 第 1 行 ， 服 务 器 创建 ShapeListServant 的 实例 。 
。 第 2 行 和 第 3 行使 用 了 exportObject 方 法 (定义 在 UnicastRemoteObject 中 )， 这 样 在 RMI 运 
行 时 就 可 以 获取 该 对 象 ， 从 而 可 以 接收 新 来 的 调用 。expertObject 方法 的 第 二 个 参数 指定 
新 调用 使 用 的 TCP 端口 ， 通 常 的 做 法 是 设置 该 参数 为 0， 即 使 用 匿名 端口 (该 端口 由 RMI 
运行 时 产生 ) 。UnicastRemoteObject 的 使 用 则 保证 了 所 得 到 的 对 象 的 生命 周期 与 创建 它 的 
进程 一 样 长 〈 另 一 个 方案 就 是 让 这 对 象 成 为 Activatable 类 的 对 象 ， 比 服务 器 实例 的 生命 周 
期 还 长 ) 。 
。 最 后 ,第 4 行将 远程 的 对 象 和 RMIregistry 中 的 名 字 绑 定 在 一 起 。 注 意 ， 绑 定 到 这 个 名 字 上 的 值 
是 一 个 远程 对 象 引 用 ， 它 的 类 型 就 是 它 的 远程 接口 的 类 型 一 一 ShapeList。 


import java.rmi.*; 
public class ShapeListServer{ 


public static void main(String args[]){ 
System.setSecurity Manager(new RMISecurityManager()); 








try{ 
ShapeList aShapeList = new ShapelistServant(); 1 
Naming.rebind("//bruno.ShapeList", stub ); 2 
System. out.printin("ShapeList server ready"); 

jeatch(Exception e) { 


System.out.printin("ShapeList server main " + e.getMessage());} 





} 


} 





图 5-18 带 有 main 方法 的 Java 类 ShapeListServer 


两 个 伺服 器 类 是 ShapeListServant ( 它 实现 ShapeList 接口 ) 和 ShapeServant 〈 它 实现 Shape 接口 )。 
图 5-19 给 出 了 ShapeListServant 类 的 轮廓 。 


import java.rmi.* ; 
import java.rmi.server. UnicastR emo te Object; 
import java.util. Vector ; 
public class ShapeL istServant extends UnicastRemo teObject implements Shapel ist{ 
private Vector the List; /ce onta ins the list of Shapes 了 
private int version; 
public Shape L istServant() throws Remo ie Exception{...} 
public Shape newShape(GraphicalObject g) throws RemoteException { 2 
version+ + ; 
Shape s = new ShapeServant( g, version); 3 
theL ist addE leme nt (s); 
return s; 








public Vector allShapes() throws RemoteException {...} 
public int getVersion() throws RemoteE xception {...} 











图 5-19 Java 类 ShapeListServant 实现 ShapeList 接口 


伺服 器 类 中 远程 接口 方法 的 实现 非常 简单 ， 因 为 它们 可 以 在 不 考虑 任何 通信 细节 的 情况 下 完成 。 
考虑 图 5-19 中 的 newShape 方 法 〈 第 1 行 )， 它 可 以 称 为 一 个 工厂 方法 ， 因 为 它 允 许 客户 来 请 求 创建 一 
个 伺服 器 。 它 使 用 ShapeServant 的 构造 函数 ， 该 构造 函数 创建 一 个 新 的 伺服 器 ， 其 中 包含 作为 参数 传 
递 的 GraphicalObjeet 和 版 本 号 。NewShape 的 返回 值 的 类 型 是 Shape 一 一 由 新 的 伺服 器 实现 的 接口 。 在 返 
回 之 前 ，newShape 方法 把 新 的 图 形 添加 到 包含 图 形 列表 的 向 量 中 (第 2 行 )。 
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服务 器 的 main 方法 需要 创建 一 个 安全 性 管理 者 ， 以 使 Java 安全 性 能 为 RMI 服务 器 提供 合适 的 保 
护 。 有 一 个 默认 的 安全 性 管理 者 ， 称 为 RMISecurityManager， 它 保护 本 地 资源 ， 以 确保 从 远程 站 点 载 人 
的 类 不 会 对 诸如 文件 这 样 的 资源 造成 影响 ， 但 是 它 与 标准 的 Java 安全 管理 器 不 同 ， 它 人 允许 程序 提供 它 
自己 的 类 装载 程序 和 使 用 反射 的 。 如 果 一 个 RM 服务 器 没有 设置 安全 性 管理 者 ， 代 理 和 类 就 只 能 从 本 
地 类 路 径 (classpath) 装载 ， 以 保护 程序 不 受 下 载 的 代码 (作为 远程 方法 调用 的 一 个 结果 ) 的 干扰 。 

客户 程序 ”ShapeList 服务 器 的 一 个 简化 的 客户 如 图 5-20 所 示 。 任 何 客户 程序 都 需要 从 使 用 绑 定 程 
序 查找 远程 对 象 引 用 开始 。 我 们 的 客户 设置 了 一 个 安全 性 管理 者 ， 然 后 使 用 RMIregistry 的 lookup 操作 
(第 1 行 ) 为 远程 对 象 查找 一 个 远程 对 象 引用 。 在 获取 了 一 个 初始 的 远程 对 象 引用 后 ， 客 户 继续 发 送 
RMI 给 那个 远程 对 象 ， 或 者 根据 应 用 的 需要 发 送 给 在 执行 期 间 发 现 的 其 他 对 象 。 在 我 们 的 例子 中 ， 客 
户 调用 远程 对 象 的 alShapes 方法 〈 第 2 行 )， 并 接收 一 个 当前 存储 在 服务 器 中 的 所 有 图 形 的 远程 对 象 
引用 的 向 量 。 如 果 客 户 正在 实现 一 个 白板 显示 ,那么 它 将 使 用 服务 器 上 Shape 接口 中 的 getAllState 方 
法 ， 以 获取 向 量 中 的 每 个 图 形 对 象 ， 并 将 它们 显示 在 窗口 中 。 每 次 用 户 绘制 完 图 形 对 象 后 ， 它 就 调用 
服务 器 里 的 newShape 方法 ， 将 新 的 图 形 对 象 作为 参数 传递 。 客 户 会 记录 服务 器 上 的 最 新 版 本 号 ， 它 还 
不 时 调用 服务 器 上 的 getVersion 方法 ， 以 查找 别 的 用 户 是 否 已 经 添加 了 一 些 新 的 图 形 。 如 果 有 新 图 形 ， 
它 将 检索 出 来 并 加 以 显示 。 

import java.rmi.*; 
import java.rmi.server.*; 
import java.util. Vector; 


public class ShapeListClient{ 
public static void main(String args[}){ 
System.setSecurityManager(new RMISecurityManager()); 
ShapeList aShapeList = null; 





{ 
aShapeList = (ShapeList) Naming.lookup("//bruno.ShapeList"); 1 
Vector sList = aShapeList.allShapes(); 2 
} catch(RemoteException e) {System. out printin(e.getMessage()); 
jcatch(Exception e) {System.out.printin("Client: ” + e.getMessage()),} 











图 5-20 ShapeList 的 Java 客户 


回调 ”回调 的 基本 思想 是 ， 客 户 不 用 为 找 出 某 个 事件 是 否 已 经 发 生 而 轮 询 服 务 器 ， 而 是 当 事 件 发 生 时 ， 
由 服务 器 通知 它 的 客户 。 回 调 指 服务 器 为 某 一 事件 通知 客户 的 动作 。 在 RMI 中 按 如 下 方式 实现 回调 ， 
© 客户 创建 一 个 远程 对 象 ， 该 对 象 实现 一 个 接口 ， 接 口中 包含 一 个 供 服务 器 调用 的 方法 。 我 们 称 
该 对 象 为 回调 对 象 。 
。 服务 器 提供 一 个 操作 ， 让 感 兴趣 的 客户 通知 服务 器 客户 的 回调 对 象 的 远程 对 象 引用 ， 服 务 器 将 
这 些 引 用 记录 在 一 张 列 表 中 。 
。 一 旦 感 兴趣 的 事件 发 生 ， 服 务 器 就 调用 感 兴 趣 的 客户 。 例 如 ， 和 白板 服务 器 会 在 添加 了 一 个 图 形 
对 象 的 时 候 调 用 它 的 客户 。 
使 用 回调 可 以 避免 客户 轮 询 服务 器 上 的 兴趣 对 象 ， 但 它 有 以 下 缺点 : 
。 服务 器 的 性 能 会 因为 时 常 的 轮 询 而 降低 。 
。 客户 不 能 及 时 通知 用 户 已 经 做 了 更 新 。 
然而 ， 回 调 也 有 它 自 身 的 问题 。 首 先 ， 服 务 器 需要 有 客户 回调 对 象 的 最 新 列表 ， 但 是 客户 并 不 总 
是 能 在 它 退出 之 前 通知 服务 器 ， 这 会 导致 服务 器 中 的 列表 不 正确 。 利 用 5. 4.3 节 介绍 的 租借 技术 可 以 
解决 这 个 问题 。 与 回调 相关 的 第 二 个 问题 是 服务 器 需要 发 送 一 系列 同步 的 RMI 给 列表 中 的 回调 对 象 。 
想 了 解 第 二 个 问题 的 解决 之 道 ， 请 参见 第 6 章 。 


我 们 阐述 了 白板 应 用 中 回调 的 使 用 。WriteboardCallback 接口 可 以 定义 为 : 
public interface WhiteboardCallback implements Remote { 
void callback(int version) throws RemoteException; 


B 
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由 客户 将 该 接口 作为 远程 对 象 实现 ， 使 服务 器 能 在 添加 了 新 对 象 的 时 候 将 版 本 号 发 送 给 客户 。 但 
是 在 服务 器 这 样 做 之 前 ， 客 户 要 通知 服务 器 它 的 回调 对 象 。 为 使 之 成 为 可 能 ，ShapeList 接口 还 要 求 一 
些 附加 的 方法 ， 例 如 register 和 deregister， 其 定义 如 下 : 


int register(WhiteboardCallback callback) throws RemoteException; 
void deregister(int callbackId) throws RemoteException; 


在 客户 取得 了 对 具有 ShapeList 接口 的 远程 对 象 引用 〈 例 如 图 5-20 中 的 第 1 行 ) 并 创建 了 一 个 回 
调 对 象 实例 之 后 ， 它 就 使 用 ShapeList 的 register 方法 通知 服务 器 它 对 接收 回调 感 兴趣 。register 方法 返 
回 一 个 整数 (callbackId) 代表 注册 。 当 客户 完成 的 时 候 ， 它 会 调用 deregister 通知 服务 器 它 不 再 请 求 回 
调 了 。 服 务 器 负责 维持 一 张 感 兴趣 客户 的 列表 ， 并 在 每 次 版 本 号 增加 的 时 候 通 知 所 有 客户 。 


5.5.2 Java RMI 的 设计 和 实现 


最 初 的 Java RMI 系统 使 用 了 图 5-15 .中 的 所 有 组 件 。 但 是 在 Java 1.2 中 ,使 用 了 反射 机 制 来 创建 通 
用 的 分 发 器 并 避免 骨架 的 使 用 。J2SE 5. 0 以 前 的 版 本 中 ， 客 户 代理 由 一 个 称 为 mmie 的 编译 器 根据 已 经 
编译 好 的 服务 器 类 来 创建 〈 不 再 根据 远程 接口 定义 来 创建 ) 。 

反射 的 使 用 ”反射 用 于 传递 请 求 消息 中 关于 被 调用 方法 的 信息 。 这 是 借助 于 反射 包 中 的 Method 类 完 
成 的 。Method 的 每 个 实例 代表 一 个 方法 的 特征 ， 包 括 它 的 类 、 它 的 参数 类 型 、 返 回 值 和 异常 。 这 个 类 的 
最 大 特点 是 Method 的 实例 能 通过 它 的 invoke 方法 被 一 个 合适 的 类 的 对 象 调用 。 调 用 方法 需要 两 个 参数 : 
第 一 个 参数 指定 接收 调用 的 对 象 ， 第 二 个 参数 是 一 个 包含 参数 的 Object 数组 。 结 果 作 为 Object 类 型 返回 。 

再 回 到 RMI 中 Method 类 的 使 用 ， 代 理 必 须 把 方法 及 其 参数 的 信息 编码 到 请 求 消息 中 。 对 于 方法 ， 
代理 将 它 编 码 成 Method 类 的 一 个 对 象 。 它 把 参数 放 入 一 个 Objects 数组 中 ， 然 后 编码 该 数组 。 分 发 器 
从 请 求 消息 中 解码 Method 对 象 和 它 在 Objects 数组 中 的 参数 。 通 常 ， 目 标 对象 的 远程 引用 已 经 被 解码 ， 
对 应 的 本 地 对 象 引用 已 从 远程 引用 模块 中 获得 。 然 后 ， 分 发 器 用 RemoteObject 
目标 对 象 和 参数 值 数组 调用 Method 对 象 的 invoke 方法 。 执 行 方 
法 后 ， 分 发 器 将 结果 或 者 出 现 的 异常 编码 到 reply 消息 中 。 这 样 ， RemoteServer 
分 发 器 是 通用 的 。 也 就 是 说 ， 相 同 的 分 发 器 能 用 于 所 有 远程 对 象 


类 ， 而 且 不 需要 骨架 了 。 AN 


支持 RMI 的 Java 类 图 5-21 给 出 了 支持 Java RMI 服务 器 Activatable UnicastRemoteObject 


的 类 的 继承 结构 。 程 序 员 只 需要 知道 UnicastRemote- Object 3, \ 
每 个 简单 的 何 服 类 都 要 扩展 它 。UnicastRem-oteObject 类 扩展 了 一 
个 称 为 RemoteServer 的 抽象 类 ，Remoteserver 提供 远程 服务 器 所 “伺服 器 类 > 


请 求 的 方法 的 抽象 版 本 。 对 RemoteServer， 第 一 个 要 提供 的 是 图 5-21 支持 Java RMI 的 类 
UnicastRemoteObject， 另 一 个 要 提供 的 是 Activatable， 现 在 用 于 提供 主动 对 象 。 其 他 选择 可 能 就 是 提供 
复制 对 象 了 。RemoteServer 类 是 RemoteObject 类 的 一 个 子 类 ， 它 的 实例 变量 有 一 个 远程 对 象 引 用 ， 并 提 
供 如 下 的 方法 : 

equals: 这 一 方法 用 于 比较 远程 对 象 引 用 。 

toString: 这 一 方法 用 于 以 String 类 型 给 出 远程 对 象 引用 的 内 容 。 

readObject、writeObject， 这 些 方法 用 于 序列 化 / 解 序 列 化 远程 对 象 。 

另外 ，instanceOf 操作 符 能 用 于 测试 远程 对 象 。 


5.6 小 结 


本 章 讨论 了 三 种 分 布 式 编程 的 范 型 一 -请求 -应 答 协议 、 远 程 方 法 调用 和 远程 过 程 调用 。 这 三 种 
范 型 都 为 分 布 式 独立 实体 (和 进程、 对象、 组 件 或 服务 ) 提供 直接 相互 通信 的 机 制 。 

请 求 -应 答 协 议 为 客户 - 服务 器 计算 提供 了 轻 量 级 的 最 小 化 支持 。 这 样 的 协议 经 常用 在 需要 将 通信 
开销 降 到 最 低 的 环境 中 ， 例 如 在 艇 人 式 系 统 中 。 请 求 应 答 协议 通常 支持 RPC 或 RMI， 见 下 面 的 讨论 。 

远程 过 程 调 用 方法 是 分 布 式 系统 中 的 一 个 重要 突破 ， 它 通过 将 过 程 调用 概念 扩展 到 网 络 化 环境 ， 
给 编程 人 员 提 供 了 高 层 支 持 。 这 提供 了 分 布 式 系统 中 透明 性 的 重要 层次 。 但 是 ， 由 于 它们 不 同 的 故障 
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和 性 能 特性 以 及 并 发 访问 服务 器 的 可 能 ， 把 远程 过 程 调用 做 得 与 本 地 调用 完全 一 样 未 必 是 一 个 好 主意 。 
远程 过 程 调用 提供 了 从 或 许 调 用 语义 到 至 多 一 次 语义 的 多 种 调用 语义 。 

分 布 式 对 象 模型 是 面向 对 象 编程 语言 所 使 用 的 本 地 对 象 模型 的 一 种 扩展 。 封 装 的 对 象 构成 了 分 布 
式 系统 中 有 用 的 组 件 ， 因 为 封装 性 使 它们 完全 负责 管理 自己 的 状态 ， 而 且 方 法 的 本 地 调用 可 以 扩展 到 
远程 调用 。 分 布 式 系统 中 的 每 个 对 象 都 有 一 个 远程 对 象 引 用 (一 个 全 局 唯一 的 标识 符 ) 和 一 个 指定 它 
的 哪个 操作 可 以 被 远程 调用 的 远程 接口 。 

本 地 方法 调用 提供 恰好 一 次 语义 ， 而 远程 方法 调用 不 能 保证 也 提供 恰好 一 次 语义 ， 因 为 两 个 参与 
的 对 和 象 在 不 同 的 计算 机 上 ， 它 们 可 能 分 别 出 故 障 ， 而且 用 于 连接 的 网 络 也 可 能 出 故障 。 最 好 管理 的 是 
最 多 一 次 调用 语义 。 由 于 它们 的 故障 和 性 能 特征 不 同 ， 加 之 对 远程 对 象 并 发 访问 的 可 能 性 ， 让 远程 调 
用 与 本 地 调用 的 表现 完全 相同 未 必 是 个 好 想法 。 

RMI 中 间 件 实现 提供 了 代理 、 骨 架 和 分 发 器 等 组 件 ， 这 些 组 件 为 客户 和 服务 器 的 编程 人 员 隐 藏 了 
编码 、 消 息 传 递 和 定位 远程 对 象 的 细节 。 这 些 组 件 可 以 由 接口 编译 器 生成 。Java RMI 使 用 相同 的 语法 
将 本 地 调用 扩展 到 远程 调用 ， 但 是 远程 接口 必须 通过 扩展 一 个 称 为 Remote 的 接口 来 指定 ， 并 让 每 个 方 
iiH — A RemoteException 异常 。 这 可 以 确保 让 程序 员 知 道 什么 时 候 发 送 远程 调用 或 者 实现 远程 对 
象 ， 使 他 们 能 处 理 错误 ， 或 者 为 并 发 访问 设计 合适 的 对 象 。 


练习 


5.1 定义 一 个 类 ， 它 的 实例 代表 了 在 图 5-4 中 的 请 求 消息 和 应 答 消息 ， 该 类 需要 提供 一 对 数据 结构 ， 分 别 
为 了 请 求 消息 和 应 答 消 息 ， 说 明 请 求 标 识 符 是 如 何 分 配 的 。 它 需要 提供 一 个 方法 能 够 将 自己 编码 进 一 
个 字 节 数组 并 且 能 够 解码 一 个 字 节 数组 到 实例 中 。 (第 188 页 ) 
5.2 使 用 UDP 通信 编写 图 5-3 中 的 请 求 - 应 答 协 议 的 三 个 操作 程序 ， 但 是 不 要 添加 任何 的 容错 措施 ， 你 
应 该 使 用 自己 在 前 面 的 章节 中 为 远程 对 象 引 用 (练习 4.13) 和 上 面 的 请 求 消息 、 应 答 消息 (练习 
5.1) 所 定义 的 类 。 (第 187 页 ) 
5.3 给 出 服务 器 实现 的 要 点 ， 说 明 在 一 个 通过 创建 新 线程 来 执行 每 个 客户 端 请 求 消息 的 服务 器 中 如 何 使 用 
getRequest, sendReply 操作 。 说 明 服 务 器 将 如 何 从 请 求 消息 中 复制 requestld 到 应 答 消 息 中 ， 以 及 它 如 


何 获取 客户 端的 IP 地 址 和 端口 号 的 。 (第 187 页 ) 
5.4 定义 一 个 新 的 doOperation 方法 ， 该 方法 在 等 待 应 答 消 息 时 可 以 设置 超时 。 当 超时 发 生 后 ， 它 重新 发 

送 请 求 消息 n 次 。 如 果 仍 然 没 有 应 答 ， 它 会 通知 访问 者 。 (第 188 页 ) 
5.5 ”描述 客户 端 能 接收 到 一 个 针对 更 早 调用 的 应 答 的 场景 。 (第 187 页 ) 
5.6 描述 一 种 方法 使 请 求 - 应 答 协 议 能 够 屏 项 操作 系统 的 不 同和 计算 机 网 络 的 异 构 。 (第 187 页 ) 
5.7 讨论 下 面 的 操作 是 否 是 寡 等 操作 : 

1) 按 电梯 的 按钮 ; 


2) 向 文件 中 写 数据 ; 

3) 向 文件 中 追加 数据 ; 

操作 不 应 该 伴 有 任何 状态 是 它 成 为 宪 等 操作 的 条 件 吗 ? (第 190 页 ) 
5.8 ”从 最 小 化 服务 器 端 所 拥有 的 应 答 数 据 数 量 的 角度 解释 设计 的 选择 方案 。 比 较 使 用 RR 和 RRA 协议 时 

的 存储 需求 。 (第 191 页 ) 
5.9 ”假设 使 用 RRA 协议 ， 服 务 器 应 该 保留 未 被 确认 的 应 答 数 据 多 久 ? 为 了 接收 到 确认 ， 服 务 器 应 该 重复 

地 发 送 应 管 吗 ? (第 191 页 ) 
5.10 “为 何在 协议 中 交换 的 消息 的 数量 比 发 送 的 数据 总 量 对 性 能 来 说 更 有 意义 ? 设计 RRA 协议 的 一 个 变 

种 ， 在 该 变种 协议 中 ， 当 要 传输 的 下 一 个 请 求 消息 出 现时 ， 在 同一 个 请 求 消息 中 朱 带 发 送 确 认 消 息 ， 

否则 发 送 单独 的 确认 消息 〈 提 示 : 在 客户 端 使 用 一 个 额外 的 计时 器 ) o (第 191 页 ) 
5. 11 Election 接口 提供 两 个 远程 方法 : 

vote: 带 有 两 个 参数 ， 客 户 通 过 这 两 个 参数 提供 一 个 候选 者 名 字 (一 个 字符 串 ) 和 “投票 者 编号 ” 

(用 于 确保 每 个 用 户 刚好 只 投票 一 次 的 整数 ) 。 投 票 者 编号 在 整数 的 范围 内 随机 地 选择 ， 以 便 不 会 被 

他 人 轻易 地 猜 中 。 
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result， 带 有 两 个 参数 ， 服 务 器 通过 这 两 个 参数 给 客户 提供 候选 者 的 名 字 和 候选 者 的 投票 编号 。 
这 两 个 过 程 中 的 哪个 参数 是 输入 型 的 ， 哪 个 是 输出 型 的 ? (第 195 页 ) 
讨论 在 TCP/IP 连接 之 上 实现 请 求 - 应 答 协议 的 时 候 可 以 获得 的 调用 语义 ， 该 调用 语义 要 确保 数据 按 
发 送 顺序 到 达 ， 既 不 丢失 数据 也 不 复制 数据 。 考 虑 导致 连接 中 断 的 所 有 条 件 。 

(4.2.4 节 , 第 198 页 ) 
以 CORBA IDL 和 Java IDL 定义 Election 服务 的 接口 。 注 意 ，CORBA IDL 提供 32 位 的 整数 类 型 long。 
比较 这 两 种 语言 中 指定 输入 型 和 输出 型 参数 的 方法 。 (5-8, 图 5-16) 
Election 服务 必须 确保 每 次 用 户 想 投票 的 时 候 ， 其 选票 就 被 记录 下 来 。 
讨论 在 Election 服务 上 使 用 或 许 调用 语义 的 效果 。 
至 少 一 次 调用 语义 会 被 Election 服务 接受 吗 ?你 认为 应 该 使 用 至 多 一 次 调用 语义 吗 ? ”第 199 页 ) 
在 一 种 带 有 遗漏 故障 的 通信 服务 上 实现 请 求 -应 答 协议 ， 以 提供 至 少 一 次 的 RMI 调用 语义 。 在 第 一 
种 情形 中 ,实现 者 假设 一 个 异 构 的 分 布 式 系统 。 在 第 二 种 情形 中 ， 实 现 者 假设 通信 和 远程 方法 执行 


的 最 大 时 间 是 To 用 哪 种 方法 能 简化 后 者 的 实现 ? (第 198 页 ) 
在 Election 服务 中 ， 要 确保 在 多 个 客户 并 发 访问 时 ， 选 举 记录 能 保持 一 致 。 简 述 其 如 何 实现 。 

(第 199 页 ) 
Election 服务 必须 确保 安全 地 存储 所 有 的 选票 ， 即 使 服务 器 进程 月 溃 也 是 如 此 。 参 考 练习 5. 16， 解 释 
如 何 实现 这 一 点 。 (第 213 页 ~ 第 214 页 ) 
解释 如 何 采用 Java 反射 构造 Election 接口 的 客户 代理 类 。 给 出 该 类 中 一 个 方法 的 实现 细节 ， 它 应 该 
用 以 下 基调 调用 do0peration 方法 ; 


byte [ ] doOperation ( RemoteObjectRef o , Method m , byte [ | arguments ) 
提示 : 代理 类 的 一 个 实例 变量 应 该 具有 一 个 远程 对 象 引 用 〈 见 练习 4. 13). (图 5-3, 第 224 页 ) 
解释 如 何 根据 CORBA 接口 定义 (练习 5.13 中 给 出 的 ) 使 用 像 C++ 这 种 不 支持 反射 的 语言 ， 生 成 一 
个 客户 代理 类 。 给 出 该 类 中 一 个 方法 实现 的 细节 ， 它 应 该 调用 图 5-3 中 定义 的 doOperation 方法 。 

(第 211 页 ) 
解释 如 何 使 用 Java 反射 构造 一 个 通用 的 分 发 器 。 给 出 具有 下 列 基调 的 分 发 器 的 Java 代码 ， 
public void dispatch ( Object target , Method aMethod , byte [ ] args ) ; 
参数 包括 目标 对 象 、 被 调用 的 方法 和 以 字 节 数组 表示 的 方法 所 需 的 参数 。 (第 224 页 ) 
练习 $. 18 要 求 客户 在 调用 doOperation 之 前 将 Object 参数 转化 成 一 个 字 节 数 组 ， 练 习 5. 20 要 求 分 发 
器 在 调用 方法 之 前 将 字 节 数组 转化 成 一 个 Objects 数组 。 讨 论 具有 下 列 基 调 的 doOperation 的 实现 : 
Object [ ] doOperation ( RemoteObjectRef o , Method m , Object [ ] arguments ) ; 
它 使 用 ObjectOutputStream 和 ObjectInputStream 类 在 客户 和 服务 器 之 间 基 于 TCP 连接 传递 请 求 和 应 答 
消息 。 这 些 改变 会 如 何 影响 分 发 器 的 设计 ? (4.3.2 节 , 第 224 页 ) 
一 个 客户 向 服务 器 发 出 远程 过 程 调用 。 客 户 花 5ms 时 间 计 算 每 个 请 求 的 参数 ， 服 务 器 花 10ms 时 间 处 
理 每 个 请 求 。 本 地 操作 系统 操作 每 次 发 送 和 接收 操作 的 时 间 是 0. Sms， 网 络 传递 每 个 请 求 或 者 应 答 
消息 的 时 间 是 3ms。 编 码 或 者 解码 每 个 消息 花 0. Sims 时 间 。 
计算 下 列 情况 下 客户 创建 和 返回 消息 所 花费 的 时 间 : 
1) 如 果 它 是 单线 程 的 。 
2) 如 果 它 有 两 个 线程 ， 这 两 个 线程 能 在 一 个 处 理 器 上 并 发 地 发 出 请 求 。 
你 可 以 忽略 其 他 上 下 文 转换 的 时 间 。 如 果 客 户 和 服务 器 处 理 器 是 线程 化 的 ， 就 需要 异步 RPC 吗 ? 

(第 213 页 ) 
设计 一 个 支持 分 布 式 无 用 单元 收集 和 在 本 地 对 象 引 用 与 远程 对 象 引用 之 间 转 化 的 远程 对 象 表 。 给 出 
一 个 例子 ， 其 中 涉及 在 不 同 地 址 上 的 几 个 远程 对 象 和 代理 ， 以 阐述 该 表 的 使 用 。 给 出 当 调 用 导致 创 
建新 代理 时 表 的 变化 。 然 后 给 出 当 一 个 代理 不 可 用 时 表 的 变化 。 (第 215 页 ) 
5.4.3 节 描 述 了 分 布 式 无 用 单元 收集 算法 的 一 个 简单 版 本 ， 该 算法 在 每 次 创建 一 个 新 的 代理 时 ， 就 
调用 远程 对 象 所 在 地 的 addRef; 每 次 删除 一 个 代理 时 ， 就 调用 removeRet。 概 述 算法 中 通信 故障 和 进 
程 故 障 可 能 造成 的 影响 。 提 出 解决 每 种 影响 的 建议 ,但 是 不 能 使 用 租借 。 (第 215 页 ) 
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本 章 通 过 学 习 间 接 通 信 来 掌握 通信 范 型 ， 它 建立 在 第 4 章 进 程 间 通 信和 第 5 章 远 程 调 用 的 基础 之 
上 。 赣 接 通信 的 本 质 是 通过 一 个 中 介 者 通信 ， 因 此 不 存在 发 送 者 和 一 个 或 多 个 接收 者 之 间 的 直接 耦合 。 
本 章 还 引入 了 空间 和 时 间 解 耦 等 重要 概念 。 

本 章 探 讨 了 一 系列 间接 通信 的 技术 : 

。 组 通信 ， 在 组 通信 中 ， 通信 通过 一 个 抽象 的 组 进行 ， 发 送 者 并 不 知道 接收 者 的 身份 。 

。 发 布 -订阅 系统 ， 代 表 一 类 方法 ， 这 类 方法 的 共同 特点 是 通过 中 介 者 将 事件 分 发 给 多 个 接 
收 者 。 
消息 队列 系统 ， 其 中 消息 发 送 到 队列 中 ， 接 收 者 从 这 些 队 列 中 提取 消息 。 
基于 共享 内 存 的 方法 ,包括 分 布 式 共享 内 存 和 元 组 空间 两 种 方法 ， 给 编程 人 员 提 供 一 个 抽象 的 
全 局 共享 内 存 抽象 。 
本 章 利用 实例 研究 来 说 明 所 要 介绍 的 主要 概念 。 


6.1 简介 

在 学 习 了 第 4 章 进程 间 通 信和 第 5 章 远 程 调用 的 基础 上 ， 本 章 通过 考察 间接 通信 来 结束 我 们 对 通 
信 范 型 的 研究 。 间 接 是 计算 机 科学 中 的 一 个 基本 概念 ， 下 面 的 引述 充分 反映 了 它 的 普遍 性 和 重要 性 ， 
这 些 引 述 出 自 剑 桥 大 学 的 Titan MA, H Roger Needham, Maurice Wikes 和 David Wheeler 总 结 得 出 : 

在 计算 机 科学 中 ， 所 有 问题 都 可 以 通过 某 个 层次 上 的 冯 接 方式 来 解决 。 

对 于 分 布 式 系统 ， 间 接 的 概念 也 越 来 越 多 地 应 用 于 通信 范 型 。 

间接 通信 被 定义 为 在 分 布 式 系统 中 实体 通过 中 介 考 进行 通信 ， 没 有 发 送 者 和 接收 者 ( 们 ) 之 间 的 
直接 耦合 。 中 介 者 的 确切 特性 随 方法 不 同 而 不 同 ， 这 一 点 在 后 文中 会 看 到 。 此 外 ， 耦 合 确切 的 特性 在 
系统 之 间 有 显著 不 同 ， 这 一 点 也 会 在 下 文中 冰 述 。 注 意 接收 者 可 以 是 多 个 ， 这 表明 很 多 间接 通信 范 型 
明确 支持 一 对 多 的 通信 。 

在 第 4 章 和 第 5 章 中 考虑 的 技术 都 是 基于 发 送 者 和 接收 者 之 间 的 直接 看 合 ， 这 导致 系统 在 处 理 改 
变 时 显得 有 些 死 板 。 为 了 说 明 这 一 点 ， 考 虑 一 个 简单 的 客户 - 服务 器 交互 。 因 为 是 直接 耦合 ， 所 以 用 
具有 相同 功能 的 另 一 台 服 务 器 替代 原来 的 服务 器 很 困难 。 同 样 ， 如 果 服 务 器 出 现 故障 ， 那 么 这 将 直接 
影响 客户 ， 客 户 必 须 显 式 地 处 理 故障 。 相 反 ， 间 接 通信 避免 了 这 种 直接 耦合 ， 因 此 ， 拥 有 一 些 令 人 关 
注 的 性 质 。 文 献 指 出 了 使 用 中 介 者 所 产生 的 两 个 主要 特性 ; | 

空间 解 哉 ， 发 送 者 不 知道 也 不 需要 知道 接收 者 《〈 们 ) 的 身份 ， 反 之 亦 然 。 因 为 空间 解 耦 使 得 系统 
开发 者 有 很 大 的 自由 度 去 处 理 改变 : 参与 者 (发送 者 或 者 接收 者 ) 可 以 被 替换 、 更 新 、 复 制 或 迁移 。 

HARR, RREME (A) 可 以 有 独立 的 生命 周期 。 换 句 话 说， 发 送 者 和 接收 者 〈 们 ) 不 
需要 同时 存在 才能 通信 。 这 将 给 易 变 环境 带 来 重大 的 益处 ， 因 为 在 易 变 的 环境 下 ， 发 送 者 和 接收 者 可 
以 随时 进入 和 离开 。 

由 于 这 些 原因 ， 间 接 通 信和 常常 用 于 预期 会 发 生 改 变 的 分 布 式 系统 中 一 一 例如 ， 在 移动 环境 中 ， 用 
户 可 能 很 快 地 和 全 球 网 络 建立 连接 或 者 断 开 连接 一 一 必须 管理 这 些 变化 从 而 提供 一 个 可 靠 的 服务 。 间 
接 通 信 还 常用 于 分 布 式 系统 的 事件 分 发 ， 在 系统 中 接收 者 是 未 知 的 ， 且 易于 改变 一 一 例如 ， 在 第 1 章 
中 介绍 的 在 金融 系统 中 管理 事件 供给 。 间 接 通信 也 被 应 用 在 Google 基础 设施 的 关键 部 分 ， 相 关 讨 论 见 
第 21 章 的 实例 研究 。 

图 6-1 讨论 了 与 间接 通信 相关 的 优点 。 而 其 主要 缺点 是 由 于 增加 间接 层 带 来 的 性 能 开销 。 事 实 上 ， 
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上 述 关 于 间接 的 引述 往往 是 伴随 以 下 由 Jim Gray 提出 的 引述 的 : 

没有 通过 消除 某 种 层次 上 的 间接 方式 解决 不 了 的 性 能 问题 。 

此 外 ， 因 为 缺乏 任何 〈 时 间或 空间 ) 的 直接 耦合 ， 所 以 使 用 间接 通信 开发 的 系统 更 加 难于 精准 地 
管理 。 

空间 和 时 间 解 耦 详解 ”可 以 假设 ， 间 接 隐 含 了 空间 和 时 间 解 耘 ， 但 也 并 非 总 是 如 此 。 图 6-1 总 结 
了 它们 之 间 的 确切 关系 。 


























| HARS | IN | 
SERA | EA: 与 一 个 或 -- 些 给 定 的 接收 者 直接 通信 ; | ”性 质 : 与 一 个 或 一 些 给 定 的 接收 者 直接 通信 ; 发 送 
接收 者 《 们 ) 必须 在 那个 时 刻 存在 # ( 们 ) 和 接收 者 OD) 可 以 有 各 自 独立 的 生命 辕 其 
例子 : 消息 传递 、 远 程 调用 《参见 第 4 章 和 例子 : 参见 练习 6.3 
第 5 章 ) 
_ i mu 、 二 A 7 
ahem | HA: 发 送 者 不 需要 知道 接收 者 ( 们 ) OS | HA: 发 送 者 不 需要 知道 接收 者 〈 们 ) 的 身份 ; 发 
份 ; 接收 者 ( 们 ) 必须 在 那个 时 刻 存在 Bee (D 和 接收 者 〈 们 ) 有 独立 的 生命 周期 
HF: PAR (参见 第 4 章 ) | “名 子 ， 本 章 讲 解 的 大 多 数 间接 通信 范 型 





图 6-1 DAA PS AN NAS 


从 图 6-1 中 ， 可 以 很 清楚 地 看 到 本 书 所 考虑 的 技术 或 者 在 时 间 和 空间 上 紧 耦 合 ， 或 者 在 两 个 维度 
都 鲜 不。 图 中 左上 一 栏 表示 第 4 章 和 第 $ 章 提 到 的 通信 范 型 ， 那 里 ， 通 信 都 是 直接 的 ， 没 有 空间 和 时 
间 的 解 而 。 例 如 ， 消 息 传递 指向 特定 实体 ， 还 需要 接收 者 在 消息 发 送 时 存在 《不 过 , 习题 6.2 引 入 了 
由 DNS 名 字 解 析 而 增加 的 维度 ) 。 远 程 调 用 范 型 在 时 间 和 空间 上 也 是 耦合 的 。 图 中 右 下 一 栏 是 体现 这 
两 个 特性 的 主要 的 间接 通信 范 型 。 少 数 通信 范 型 在 这 两 部 分 之 外 : 
。 了 琴 组 播 ,在 第 4 章 介绍 ， 它 是 空间 解 耦 而 时 间 耦 合 的 。 空 间 解 耦 是 因为 消息 直接 发 送 到 组 播 
组 ， 而 不 是 任何 一 个 特定 的 接收 者 。 它 是 时 间 耦 合 的， 因为 所 有 接收 者 在 消息 发 送 到 组 播 组 时 
必须 存在 。 一 些 组 通信 的 实现 及 发 布 -订阅 系统 也 属于 这 一 类 〈 参 见 6. 6 节 ) 。 这 个 例子 说 明 
通信 通道 的 持久 性 对 于 实现 时 间 解 耦 的 重要 性 ， 也 就 是 说 通信 范 型 必须 存储 消息 以 便 在 接收 者 
( 们 ) 准备 好 接收 时 传递 消息 。IP 组 播 不 支持 这 个 层次 上 的 持久 性 。 

. 。 通信 中 空间 耦合 而 时 间 解 耦 的 情况 更 微妙 。 空 间 耦 合意 味 着 发 送 者 知道 特定 接收 者 〈 们 ) 的 
身份 ， 但 是 时 间 解 耦 意味 着 接收 者 〈 们 ) 在 发 送 时 不 需要 存在 。 习 题 6. 3 和 6.4 让 读者 考虑 这 
种 模式 是 否 存在 以 及 能 否 构建 。 

返回 到 我 们 的 定义 ， 我 们 认为 所 有 涉及 中 介 者 的 范 型 都 是 间接 的 ， 而 且 认为 耦合 的 程度 随 系统 的 
不 同 而 不 同 。 为 了 研究 每 一 种 方法 的 特点 ， 我 们 将 在 6. 6 节 重 温 不 同 间接 通信 范 型 的 特性 。 

与 异步 通信 的 关系 ”注意 ， 要 充分 认识 这 个 领域 ， 区 分 异步 通信 〈 在 第 4 章 定义 的 ) 和 时 间 解 耦 很 
重要 。 在 异步 通信 中 ， 发 送 者 发 送 一 个 消息 ， 然 后 继续 工作 〈 不 阻塞 ) ， 因 此 不 需要 与 接收 者 在 同一 时 
间 通 信 。 时 间 解 看 增加 了 额外 的 维度 ， 发 送 考 和 接收 者 〈 们 ) 可 以 相互 独立 存在 ， 例 如 ， 接 收 者 在 通信 
发 起 时 可 能 不 存在 。Eugster 等 人 也 认识 到 异步 通信 【〈 同 步 解 耦 ) 和 时 间 解 耦 的 重要 区 别 [2003]. 

本 章 考 察 的 许多 技术 是 时 间 解 燃 而 且 异 步 的 ， 但 是 少数 像 在 6. 2.3 节 讨 论 的 JGroups 中 的 Message- 
Dispatcher 和 RpcDispatcher 操作 ， 通 过 间接 通信 提供 同步 服务 。 

本 章 剩余 部 分 考察 间接 通信 的 例子 ， 从 6.2 节 组 通信 开始 ，6. 3 节 讲 述 发 布 - 订阅 系统 的 基础 知 
识 ，6. 4 节 考 察 由 消息 队列 提供 的 截然 不 同 的 方法 。 在 此 之 后 ，6. 5 节 考 察 基于 共享 内 存 抽 象 的 方法 ， 
特别 是 分 布 式 共享 内 存 和 基于 元 组 空间 的 方法 。 


6.2 组 通信 

组 通信 是 我 们 提供 的 间接 通信 范 型 的 第 一 个 例子 。 组 通信 (group communication) 提供 一 种 服务 ， 
在 这 种 服务 中 ， 消 息 首先 被 发 送 到 组 中 ， 然 后 该 消息 被 传送 到 组 中 的 所 有 成 员 。 在 这 个 动作 中 ,发 送 
者 不 清楚 接收 者 们 的 身份 。 组 通信 是 对 组 播 通信 的 抽象 ， 可 以 通过 IP 组 播 或 一 个 等 价 的 覆盖 网 络 实 
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现 ， 它 增加 了 一 些 重要 的 特性 ， 如 管理 组 的 成 员 、 检 测 故 障 、 提 供 可 靠 性 和 排序 保证 。 增 加 了 这 些 保 
障 ， 组 通信 对 于 IP 组 播 就 像 TCP 对 于 IP 中 的 点 对 点 服务 一 样 。 
组 通信 对 于 分 布 式 系 统 ， 尤 其 是 可 靠 的 分 布 式 系 统 ， 是 一 个 重要 的 构造 块 ， 其 主要 的 应 用 领域 包括 : 
。 面向 可 能 是 大 量 客户 的 可 靠 信 息 分 发 ， 包 括 金 融 业 ， 这 些 机 构 需 要 访问 大 量 信息 源 获 得 准确 
的 、 最 新 的 数据 。 
。 支持 协作 应 用 ， 在 这 样 的 应 用 中 事件 被 分 发 到 多 个 用 户 ， 从 而 保留 一 个 共同 的 用 户 视图 一 一 例 
W, 第 1 章 讨论 的 多 玩家 游戏 。 
© 支持 一 系列 容错 策略 ,包括 复制 数据 的 一 致 更 新 ( 相关 详细 讨论 参见 第 18 章 ) ,或 者 高 可 用 性 
(复制 ) 服务 器 的 实现 。 
。 支持 系统 监控 和 管理 ， 包 括 负载 平衡 策略 。 
下 面 我 们 详细 探讨 一 下 组 通信 ， 研 究 其 所 提供 的 编程 模型 和 相关 的 实现 问题 。 作 为 组 通信 服务 的 
一 个 实例 研究 ， 我 们 还 将 研究 JGroups 工具 箱 。 


6.2.1 编程 模型 

在 组 通信 中 ， 核 心 概 念 是 组 和 相关 的 组 成 员 ， 由 此 ， 进 程 可 以 加 入 或 离开 组 。 进 程 可 以 发 送 一 个 
消息 到 组 中 ， 然 后 ， 消 息 被 传播 到 组 中 的 所 有 成 员 ， 并 在 可 靠 性 和 排序 方面 提供 一 定 的 保证 。 因 此 ， 
组 通信 实现 了 组 播 通信 ， 即 通过 一 个 操作 ， 消 息 被 发 送 到 组 中 的 所 有 成 员 。 与 系统 中 所 有 进程 通信 ， 
而 不 是 其 中 的 子 组 ， 被 称 为 广播 (broadcast) ， 而 与 单个 进程 通信 被 称 为 单 播 (unicast) 。 

组 通信 的 重要 特征 是 一 个 进程 事项 只 发 起 一 个 组 播 操作 ， 它 将 消息 发 送 到 一 组 进程 中 的 每 一 个 
(在 Java 中 这 个 操作 是 aGroup. send( aMessage) ) ， 而 不 是 发 起 多 个 发 送 操作 到 每 个 进程 。 

使 用 一 个 组 播 操作 而 不 是 多 次 发 送 操作 为 程序 员 提 供 了 很 大 的 便捷 : 它 使 得 其 实现 能 有 效 利 用 带 
宽 。 可 以 通过 一 个 分 布 式 树 ， 使 得 发 送 消息 到 任何 通信 链 路 不 超过 一 次 ， 而 且 在 条 件 允 许 的 情况 下 ， 
可 以 为 组 播 使 用 网 络 硬件 支持 。 这 种 实现 方式 ， 相 比 于 分 开 的 串 行 传送 ， 可 以 最 小 化 传递 消息 到 目的 
地 的 总 时 间 。 

为 了 了 解 这 些 优 点 ， 比 较 一 下 分 别 发 送 两 个 独立 的 UDP 包 和 用 一 个 了 P 组 播 操作 从 一 台 在 伦敦 
的 计算 机 发 送 消息 到 两 个 在 Palo Alto 的 同一 以 太 网 的 计算 机 ， 查 看 带宽 利用 和 花费 的 总 的 传送 时 间 。 
第 一 种 情况 ， 两 个 消息 的 两 个 拷贝 被 独立 发 送 ， 第 二 个 拷贝 将 被 第 一 个 延迟 。 第 二 种 情况 ， 一 组 具有 
组 播 功能 的 路 由 器 从 伦敦 转发 消息 的 单个 拷贝 ， 传 送 到 加 利 福 尼 亚 州 局 域 网 的 路 由 器 。 然 后 该 路 由 器 
使 用 硬件 组 播 〈 由 以 太 网 提供 ) 一 次 将 消息 传送 到 两 个 目的 地 ， 而 不 是 发 送 两 次 。 

使 用 单个 组 播 操作 对 传递 保证 来 说 也 很 重要 。 如 果 一 个 进程 发 起 多 个 独立 的 发 送 操 作 给 不 同 的 进 
程 ， 那 么 实现 上 没有 办 法 来 保证 作为 一 个 整体 影响 一 个 进程 组 。 如 果 发 送 者 在 发 送 过 程 中 失败 了 ,那么 
组 中 的 一 些 成 员 收 到 了 消息 ， 而 另 一 些 没有 收 到 。 此 外 ， 两 个 消息 传递 到 任意 两 个 组 成 员 的 相对 顺序 是 
未 定义 的 。 然 而 ， 正 如 下 面 6. 2.2 节 讨 论 的 ， 组 通信 有 可 能 在 可 靠 性 和 排序 方面 提供 一 些 保障 。 

组 通信 已 经 成 为 许多 研究 项 目的 课题 ,包括 V- system [Cheriton and Zwaenepoel 1985 ] Chorus 
[ Rozier et al. 1988 ] Amoeba [ Kaashoek et al. 1989; Kaashoek and Tanenbaum 1991]. Trans/Total [ Mel- 
liar-Smith et al. 1990], Delta-4 [ Powell 1991]. Isis [Birman 1993], Horus [van Renesse et al. 1996 ] 、 
Totem [Moser et al. 1996] 和 Transis [Dolev 和 Malki 1996] ， 在 本 章 ， 实 际 上 是 本 书 (尤其 是 第 15 B 
和 第 18 章 ) 中 ， 我 们 会 引用 其 他 人 的 研究 成 果 。 

进程 组 和 对 象 组 ”大 多 数组 服务 工作 关注 进程 组 (process group) 概念 ， 即 通信 的 实体 是 这 个 组 中 
的 进程 。 这 种 服务 是 相对 低级 的 ， 因 为 : 

。 消息 被 传递 到 进程 ， 并 没有 进一步 提供 对 分 发 的 支持 。 

。 消息 通常 是 非 结 构 化 的 字 节 数组 ， 不 支持 对 复杂 数据 类 型 的 编码 (例如 在 RPC 或 RMI 中 一 一 

参见 第 5 章 )。 

因此 ， 进 程 组 提供 的 服务 等 级 ， 类 似 在 第 4 章 讨论 的 套 接 字 。 相 反 ， 对 象 组 (object group) 提供 
更 高 级 的 组 计算 方法 。 一 个 对 象 组 是 一 组 对 象 的 集合 (形式 上 是 同一 个 类 的 实例 )， 这 些 对 象 并 发 地 
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处 理 同一 组 调用 ， 然 后 ， 各 自 返 回 其 响应 。 客 户 对 象 不 需要 知道 拷贝 。 它 们 调用 一 个 本 地 对 和 象 上 的 操 
作 ， 该 对 象 充当 组 的 代理 。 代 理 使 用 组 通信 系统 向 对 象 组 的 成 员 发 送 调用 。 对 象 参数 和 结果 如 在 RMI 
中 一 样 被 编码 ， 相 关 的 调用 被 自动 分 发 到 正确 的 目标 对 象 /方法 。 

Electra[ Maffeis 1995] 是 一 个 CORBA 兼容 的 系统 ， 它 支持 对 象 组 。 一 个 Electra 组 可 以 被 连接 到 许 
多 CORBA 兼容 的 应 用 。 了 lectra 起 初 建立 在 Horus 组 通信 系统 之 上 ， 它 用 Horus 来 管理 组 成 员 和 组 播 调 
用 。 在 “透明 模式 ”中 ,本 地 代理 返回 给 客户 对 象 第 一 个 可 用 的 响应 。 在 “ 非 透明 模式 ”中 ， 客 户 对 
象 可 以 访问 所 有 由 组 成 员 返 回 的 响应 。Plectra 使 用 的 接口 是 对 标准 的 CORBA 对 象 请 求 代 理 接口 的 扩 
展 ， 具 有 创建 和 销毁 对 象 组 及 管理 其 成 员 的 功能 。Etemall Moser et al. 1998] 和 对 象 组 服务 [ Cuerraoui 
et al. 1998] 还 提供 了 兼容 CORBA 的 对 象 组 支持 。 

尽管 对 象 组 很 有 前 途 ， 然 而 ， 进 程 组 仍然 在 使 用 上 占 了 主导 地 位 。 例 如 ， 流 行 的 JGroups 工具 箱 是 
经 典 的 进程 组 方法 ， 相 关 讨 论 见 6.2.3 节 。 

其 他 主要 的 区 别 ”已 经 开发 了 许多 组 通信 服务 ， 它 们 因 各 自 的 假设 不 同 而 不 同 : 

封闭 和 开放 组 : 一 个 组 只 有 组 成 员 能 组 播 给 它 ， 这 样 的 组 被 称 为 封闭 组 〈 见 图 6-2) 。 一 个 封闭 组 
的 一 个 进程 将 其 组 播 到 组 的 任何 消息 传递 到 自身 。 一 个 组 是 开放 的 ， 如 果 组 外 的 进程 可 以 发 送 消息 给 
它 。(“ 开 放 ” 和 “封闭 ”的 分 类 也 适用 于 具有 类 似 含义 的 邮件 列表 。) 进程 的 封闭 组 是 很 有 用 的 ， 例 
如 ， 协 作 服 务 器 只 相互 发 送 消息 到 应 该 接收 消息 的 服务 器 。 开 放 组 也 很 有 用 ， 例 如 ， 传 递 事件 到 感 兴 
趣 的 进程 组 。 





封 闲 组 开放 组 


O 


图 6-2 开放 组 和 封闭 组 


重合 和 非 重 又 组 ,在 重 又 组 中 ,实体 (进程 或 者 对 象 ) 可 能 成 为 多 个 组 的 成 员 ， 而 非 重要 组 意味 着 
成 员 不 会 重 登 〈 也 就 是 ， 任 一 进程 属于 至 多 一 个 组 ) 。 注 意 到 ， 在 实际 的 系统 中 ， 组 成 员 的 重 和 是 现实 的 。 

同步 和 异步 系统 : 需要 在 这 两 种 环境 中 考虑 组 通信 。 

这 些 区 别 对 于 底层 的 组 播 算法 有 重大 影响 。 例 如 ， 一 些 算法 假设 组 是 封闭 的 。 可 以 用 封闭 组 实现 和 
开放 组 相同 的 效果 ， 具 体 方 法 是 ， 选 定 一 个 组 成 员 ， 为 其 发 送 消息 一 对 一 ) ， 然 后 由 它 组 播 到 组 内 。 
Rodrigues 等 [1998] 讨论 了 到 开放 组 的 组 播 。 有 关 开放 和 封闭 组 的 问题 会 在 第 15 章 中 讨论 ， 其 中 会 讲 到 
有 关 可 靠 性 和 排序 的 算法 。 第 15 章 还 考虑 了 重 又 组 的 影响 和 对 于 这 样 的 协议 ， 系 统 是 同步 的 还 是 异步 的 。 


6.2.2 实现 问题 


我 们 现在 转向 组 通信 服务 的 实现 问题 ， 讨 论 底层 组 播 服务 在 可 靠 性 和 排序 方面 的 特性 ， 以 及 在 进 
程 可 以 在 任何 时 候 加 入 、 离 开 或 失效 的 动态 环境 中 ， 组 成 员 管理 所 起 到 的 关键 作用 。 

在 组 播 中 的 可 靠 性 和 排序 “在 组 通信 中 ， 所 有 组 成 员 必须 收 到 发 送 给 本 组 的 消息 的 拷贝 ， 并 且 一 
般 具 有 传递 保证 。 这 个 保证 包括 组 中 每 个 进程 收 到 的 消息 应 达成 的 协定 ， 以 及 组 成 员 间 的 消息 传递 顺 
序 应 达成 协定 。 

组 通信 系统 是 非常 复杂 的 。 甚 至 是 P 组 播 ， 它 提供 了 最 少 的 传递 保证 ， 也 需要 很 大 的 工程 工作 量 。 

到 目前 为 止 ， 我 们 已 经 相当 笼统 地 讨论 了 可 靠 性 和 排序 。 我 们 现在 详细 了 解 这 些 特性 的 含义 。 
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2. 4. 2 节 用 两 个 性 质 定 义 了 在 点 对 点 通信 中 的 可 靠 性 : 完整 性 (接收 到 的 和 发 送 的 消息 是 一 样 的 ， 
没有 消息 被 传递 两 次 ) 、 有 效 性 (任何 要 外 发 的 消息 最 终 都 会 被 传递 ) 。 对 可 靠 组 播 的 解释 建立 在 这 些 
性 质 之 上 ， 其 中 ， 完 整 性 保证 消息 至 多 被 正确 地 传递 一 次 ， 有 效 性 保证 消息 最 终 会 被 传递 。 为 了 扩展 
语义 以 覆盖 对 多 个 接收 者 的 消息 传递 ， 需 要 增加 第 三 个 特性 ， 即 协定 (agreement), MADEE, 
如 果 消 息 被 传递 到 一 个 进程 ， 那 么 该 消息 被 传递 到 本 组 的 所 有 进程 。 

除了 可 靠 性 保证 ， 组 通信 要 求 对 传递 到 多 个 目的 地 的 消息 提供 消息 相对 排序 方面 的 额外 保障 。 有 
序 是 不 能 由 底层 进程 间 通 信和 原 语 来 保证 的 。 例 如 ， 如 果 组 播 由 一 系列 一 对 一 的 消息 来 实现 ， 那么， 这 
些 消息 可 能 会 遭受 到 任意 的 延迟 。 如 果 用 他 组 播 也 会 产生 类 似 的 问题 ， 要 解决 这 个 问题 ， 组 通信 服务 
提供 了 有 序 组 播 《ordered multicast) ， 提 供 以 下 一 个 或 多 个 特性 (也 有 可 能 形成 混合 方案 ) : 

FIFO 序 : 先进 先 出 (First-In-First-Out, FIFO) FF (也 被 称 为 源 序 ) 被 认为 是 保证 了 从 发 送 者 进 
程 的 角度 所 看 到 的 顺序 ， 这 是 因为 如 果 一 个 消息 在 另 一 个 消息 之 前 发 送 ， 那 么 将 以 这 个 顺序 传递 到 组 
中 的 所 有 进程 。 

ARF: 因果 序 考虑 了 消息 之 间 的 因果 关系 ， 如 果 在 分 布 式 系统 中 一 个 消息 在 另 一 个 消息 之 前 发 
生 ， 那 么 传递 相关 消息 到 所 有 进程 时 ， 这 种 所 谓 的 因果 关系 将 被 保留 (“ 发 生 在 先 ”关系 的 详细 讨论 
参见 14 章 ) 

全 序 : 在 全 序 中 ， 如 果 在 一 个 进程 中 ,一 个 消息 在 另 一 个 之 前 被 传递 ， 那 么 相同 的 顺序 将 在 所 有 
进程 上 被 维持 。 

在 分 布 式 系统 中 ， 可 靠 性 和 排序 是 协调 和 协定 的 例子 ， 因 此 ， 在 第 15 章 中 会 进一步 考虑 并 单独 关 
注 这 个 主题 。 尤 其 是 ， 第 15 章 提供 了 更 全 面 的 关于 完整 性 、 有 效 性 、 协 定 和 各 种 排序 性 质 的 定义 ， 研 
究 了 可 靠 的 和 有 序 组 播 算法 的 实现 细节 。 

组 成 员 管理 ”图 6-3 总 结 了 组 通信 管 
理 的 主要 元 素 ， 图 上 显示 了 一 个 开放 组 。 
这 幅 图 说 明了 组 成 员 管理 对 于 维护 一 个 准 
确 的 当前 成 员 视图 的 重要 性 ， 这 里 ， 实 体 
可 能 加 入 、 离 开 或 者 出 故障 。 更 具体 来 
说 , 组 成 员 服务 有 四 个 主要 任务 : 

提供 组 成 员 改 变 的 接口 : 组 成 员 服 
务 提供 创建 和 删除 进程 组 、 在 组 中 增加 
或 者 删除 进程 的 操作 。 在 很 多 系统 中 ， x 
一 个 进程 可 能 同时 属于 多 个 进程 组 (W CC) 

之 前 定义 的 重 和 至 组 ) Mi, P AER aN 
是 这 种 情况 。 

故障 检测 : 服务 监测 组 成 员 不 仅 在 图 6-3 组 成 员 管理 的 作用 
它们 崩溃 时 ， 也 在 因为 通信 故障 导致 它们 不 可 达 时 。 检 测 器 标记 进程 是 可 疑 的 和 非 可 疑 的 。 服 务 使 用 
故障 检测 器 对 组 成 员 做 出 决策 ， 当 怀疑 其 已 经 出 故障 或 变 得 不 可 达 时 ， 从 成 员 中 去 除 该 进程 。 

组 成 员 改 变 时 通知 成 员 : 当 增 加 进程 ， 或 者 去 除 进程 时 〈 故 障 或 者 是 进程 有 意 退 出 组 ) ， 服 务 通 
知 组 成 员 。 

执行 组 地 址 扩展 : 当 进程 组 播 一 个 消息 时 ， 它 提供 组 标识 而 不 是 组 中 的 一 系列 进程 。 成 员 管理 服 
务 将 该 标识 扩展 为 要 传递 的 当前 组 成 员 。 服 务 通 过 控制 地 址 扩展 来 协调 成 员 改 变 时 的 组 播 传递 。 也 就 
是 说 ， 即 使 在 传递 中 ， 成 员 改 变 了 ， 其 仍 可 以 一 致 地 决定 向 哪里 传递 一 个 给 定 的 消息 。 

注意 ，IP 组 播 是 一 个 较 弱 的 组 成 员 服务 方面 的 例子 ， 有 一 些 组 成 员 服务 的 特性 ， 但 不 完全 。 它 多 
许 进程 动态 地 加 入 和 离开 组 并 执行 地 址 扩展 ， 所 以 ， 对 于 组 播 消 息 ， 发 送 者 只 需 提供 一 个 IP 组 播 地 址 
作为 目的 地 。 但 是 记 组 播 本 身 不 向 组 成 员 提供 当前 成 员 的 信息 ， 组 播 传递 不 会 随 成 员 改 变 而 调整 。 实 
现 这 些 特性 是 很 复杂 的 ， 需 要 视图 同步 组 通信 (view-synchronous group communication) 。 在 第 18 章 会 进 
一 步 研究 这 一 重要 问题 ， 其 中 讨论 了 组 视图 的 维护 和 如 何在 分 布 式 系统 支持 复制 的 环境 中 实现 组 通信 







组 地 址 扩展 


组 发 送 


ae 组 通信 管理 


[237] 
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同步 视图 。 

总 体 来 看 ， 需 要 维护 组 成 员 对 于 基于 组 的 方法 有 重要 影响 。 尤 其 是 ， 组 通信 在 小 规模 、 静 态 的 系 
统 中 很 有 效 ， 在 大 规模 或 者 高 度 变 化 的 系统 中 运行 并 不 完善 。 这 要 追溯 到 其 对 同步 假设 形式 的 需求 。 
Ganesh 等 [2003] 针对 大 规模 和 动态 环境 提出 了 组 成 员 的 一 个 概率 方法 ， 其 在 底层 使 用 闲聊 协议 〈 参 
见 10.5.3 节 )。 人 研究 者 针对 自 组 织 网 络 和 移动 环境 也 开发 了 组 成 员 协 议 [ Prakash and Baldoni 1998 ; 
Roman et al. 2001; Liu et al. 2005], 


6.2.3 ”实例 研究 ，JGroups 工具 箱 


JGroups 是 用 Java 语言 编写 的 可 靠 组 通信 工具 箱 。 该 工具 箱 是 组 通信 工具 家 族 的 一 部 分 ， 该 组 通信 
工具 家 族 由 康泰 尔 大 学 创建 ， 建 立 在 ISIS[ Birman 1993 ] 、Horus[ van Renesse et al. 1996] 和 Ensemble[ van 
Renesse et al. 1998] 开发 的 基础 概念 之 上 。 工 具 箱 现在 由 JGroups 开源 社区 [www. jgroups. org] 进行 维护 
和 开发 ， 正 如 在 第 8 章 中 讨论 的 [www. jboss. org], JGroups 开源 社区 是 JBoss 中 间 件 社区 的 一 部 分 。 

JGroups 支持 进程 组 ， 在 进程 组 中 ， 进 程 可 以 进入 、 离 开 组 ， 发 送 消息 到 所 有 组 成 员 或 者 单个 成 员 ， 并 
且 从 组 中 接收 消息 。 工 具 箱 支持 多 种 可 靠 性 和 排序 保证 〈 下 面 将 详细 讨论 ) ， 并 提供 组 成 员 服务 。 

JGroups 的 体系 结构 如 图 6-4 所 示 ， 它 显示 了 JGroups 
实现 的 主要 组 件 : 

。 渠道 (channel) 代表 为 应 用 开发 者 提供 的 最 原始 的 

接口 ， 提 供 加 入 、 离 开 、 发 送 和 接收 的 核心 功能 。 

© 构造 块 提供 高 层次 的 抽象 ， 它 建立 在 由 渠道 提供 

的 底层 服务 上 。 
。 协议 栈 提供 了 底层 的 通信 协议 ， 它 构造 了 一 个 可 
组 合 的 协议 层 的 楼 。 

我 们 下 面 依次 看 一 下 各 项 。 

渠道 ”一 个 进程 通过 一 个 渠道 对 象 和 一 个 组 进行 交 
E, 这 里 ， 渠 道 对 象 作为 一 个 组 的 句柄 。 当 梁 道 被 创建 
时 ， 连 接 是 断 开 的 ， 但是， 随后 的 连接 (connect) 操作 将 
一 个 指定 名 字 的 组 绑 定 到 这 个 句柄 ; MRI MEA FAN come ee 
组 不 存在 ， 那 么 在 第 一 次 连接 时 隐 式 地 创建 。 进 程 在 离开 
组 时 ， 执 行 相应 的 断 连 〈discomneet) 操作 。 还 提供 了 一 个 图 6-4 JGroups 的 体系 结构 
关闭 (close) 操作 使 渠道 无 法 使 用 。 注 意 ， 一 个 渠道 一 次 只 能 连接 一 个 组 ; 如 果 一 个 进程 想 连接 两 个 
或 者 更 多 组 ， 必 须 创建 多 个 罕 道 。 当 进程 连接 渠道 后 ， 进 程 可 以 通过 渠道 发 送 和 接收 消息 。 消 息 是 通 
过 可 上 靠 组 播发 送 的 ， 由 部 署 的 协议 栈 定义 了 精确 的 语义 下文 将 进一步 讨论 ) 。 

渠道 上 也 定义 了 一 系列 其 他 操作 ， 尤 其 是 返回 与 渠道 相关 的 管理 信息 。 例 如 ，getView 返回 定义 为 
当前 组 成 员 列表 的 当前 视图 ， 而 getState 返回 与 组 相关 的 历史 应 用 状态 〈 例 如 ， 一 个 新 的 组 成 员 可 以 使 
用 它 来 了 解 之 前 的 事件 ) 。 

注意 ,术语 渠道 不 要 与 6.3.1 节 引 入 的 基于 渠道 的 发 布 -订阅 (channel- based publish - subscribe) 
混淆 。 在 JGroups 中 的 渠道 和 第 6. 2. 1 节 中 定义 的 组 的 实例 是 相同 的 含义 。 

我 们 通过 一 个 简单 的 服务 举例 进一步 说 明渠 道 的 使 用 ， 在 这 个 服务 中 ,一 个 智能 火警 器 可 以 发 送 
“火灾 !” 组 播 消息 到 所 有 已 注册 的 接收 者 。 图 6-5 给 出 了 火警 器 的 代码 。 

当 报 警 产生 时 ， 第 一 步 是 创建 JChannel 的 一 个 新 实例 (在 JGroups 中 ，JChannel 是 代表 渠道 的 类 ) ， 
然后 连接 到 一 个 被 称 为 AlarmChannel 的 组 。 如 果 是 第 一 次 连接 ， 在 这 一 阶段 将 创建 组 〈 这 个 例子 中 是 不 
太 可 能 的 ， 否 则 报警 将 不 那么 有 效 )。 一 个 消息 的 构造 函数 需要 三 个 参数 : 目的 地 、 源 、 有 效 载荷 。 在 
这 个 例子 中 ， 目 的 地 是 nul， 指 定 消息 将 发 送 到 所 有 成 员 。 ( 如果 指 定 了 地 址 ， 将 只 发 送 到 那个 地 址 。) 
源 也 是 null; 在 JGroups 中 不 需要 指定 源 ， 因 为 它 将 会 被 自动 包含 。 有 效 载荷 是 一 个 非 结构 化 的 字 节 数 
组 ,将 通过 send 方法 传递 到 组 中 的 所 有 成 员 。 创 建 FireAlarmJG 类 的 一 个 新 实例 并 启动 报警 的 代码 是: 
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FireAlarmJG alarm = new FireAlarmJG(Q; 
alarm.raise(); 


接收 端 相应 的 代码 具有 相似 的 结构 ， 如 图 6-6 所 示 。 然 而 在 这 个 例子 中 ， 连 接 后 将 调用 receive 方法 。 
该 方法 只 有 一 个 参数 ， 即 超时 时 间 。 如 果 该 参数 被 设置 为 0， 就 像 本 例 中 一 样 ， 接 收 消息 的 方法 将 被 阻 
塞 直到 接收 到 一 个 消息 。 注 意 , JGroups 中 ， 到 达 的 消息 是 被 缓冲 的 ，receive 方法 返回 缓冲 区 顶部 的 元 
素 。 如 果 现 在 没有 消息 ，receive 方法 将 阻塞 等 待 下 一 个 消息 。 严 格 地 讲 ，receive 方法 可 以 返回 一 系列 对 象 
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类 型 一 一 例如 ， 





import org jgroups.JChannel; 
public class FireAlarmJG { 
public void raiseO { 


try { 
JChannel channel = new JChannel(); 
channel.connect("AlarmChannel"); 


Message msg = new Message(null, null, "Fire!"); 


告知 成 员 组 改变 ,或 者 告知 组 成 员 被 怀疑 出 故障 (因此 转换 成 如 上 的 Message 类 ) 。 








import org. jgroups.JChannel; 
public class FireAlarmConsumerJG { 
public String await() { 


{ 
JChannel channel = new JChannelQ); 
channel.connect("AlarmChannel"); 


Message msg = (Message) channel. receive(0); 


return (String) msg.GetObject(); 


channel. send(msg); 
catch(Exception e) { 
return null; 


} 
catch(Exception e) { 
} ? 


i } 
} 2 
图 6-5 Java 类 FireAlarmJG 


一 个 给 定 的 接收 者 必须 包含 以 下 代码 来 等 待 报警 : 


FireAlarmConsumerJG alarmCall = new FireAlarmConsumerJGO; 
String msg = alarmCali.await(); 
System.out printin("Alarm received: " + msg); 


WER ”构造 块 是 在 之 前 讨论 的 渠道 类 之 上 的 更 高 层次 的 抽象 。 渠 道 在 层次 上 类 似 于 套 接 字 。 构 
建 块 类 似 于 第 5 章 讨 论 的 更 高 级 的 通信 范 型 ， 提 供 对 常见 通信 模式 的 支持 〈 但 在 这 种 情况 下 ， 是 针对 
组 播 通信 的 ) 。 在 JGroups 中 ， 构 造 块 的 例子 有 : 

。 MessageDispatcher 是 JGroups 提供 的 最 直观 的 构造 块 。 在 组 通信 中 ， 经 常 使 用 的 方法 是 发 送 者 

发 送 消息 到 组 中 ， 然 后 等 待 部 分 或 所 有 的 应 答 ， 这 是 有 实际 使 用 价值 的 。MessageDispatcher iff 
过 提供 castMessage 方法 来 支持 这 种 方式 ， 这 里 ，castMessage 方法 发 送 消 息 到 组 中 ,保持 阻塞 
直到 收 到 一 定数 量 的 应 答 ( 例 如 ， 直 到 收 到 特定 的 n 个、 大 多 数 或 者 所 有 消息 ) 。 

© RpcDispatcher 提供 了 一 个 特定 的 方法 (以 及 可 选 的 参数 和 结果 ) ， 然 后 调用 和 这 个 组 相关 的 所 

有 对 象 上 的 该 方法 。 和 MessageDispatcher 一 样 ， 调 用 者 能 阻塞 等 待 部 分 或 者 所 有 的 应 答 。 
© NotificationBus 是 分 布 式 事件 总 线 的 实现 ， 其 中 ， 一 个 事件 是 任何 可 串 行 化 的 Java 对 象 。 这 个 
类 经 常用 来 实现 复制 缓存 中 的 一 致 性 。 

Pie JGroups 遵循 Horus 和 Ensemble 提出 的 体系 结构 ， 从 协议 层 中 构建 协议 栈 (起 初 文献 中 称 
为 微 协议 [van Renesse et al. 1996 ，1998 ] ) 。 在 这 种 方法 中 ， 一 个 协议 是 由 多 个 协议 层 组 成 的 一 个 双向 
栈 ， 每 个 协议 层 实现 了 以 下 两 个 方法 : 


public Object up (Event evt); 
public Object down (Event evt); 


因此 ， 协 议 处理 通 过 在 栈 中 向 上 或 者 向 下 传送 事件 来 完成 。 在 JGroups 中 ， 事 件 可 能 是 到 达 的 消 
息 、 外 发 的 消息 或 者 管理 事件 ， 例 如 ， 和 视图 改变 相关 的 事件 。 每 一 层 可 以 对 消息 进行 任意 地 处 理 ， 
包括 修改 内 容 、 增 加 标题 ， 其 至 丢弃 或 者 重 排序 消息 。 

为 了 进一步 说 明 概念 ， 我 们 研究 图 6-4 所 示 的 协议 栈 ， 其 表明 一 个 协议 由 五 层 组 成 ; 

© 在 JGroups 中 ， 被 称 为 UDP 的 层 是 最 常见 的 传输 层 。 注 意 ， 尽 管 叫 这 个 名 字 ， 但 这 并 不 完全 等 

同 于 UDP iN; 相反， 该 层 利用 下 组 播发 送 给 组 内 所 有 成 员 ， 并 专门 用 UDP 数据 报 进行 点 对 
点 的 通信 。 因 此 ， 该 层 假设 下 组 播 是 可 用 的 。 如 果 不 可 用 ， 该 层 被 配置 成 给 成 员 发 送 一 系列 

















图 6-6 Java 类 FireAlarmConsumerJG 
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的 单 播 消 息 ， 依 靠 另外 一 层 进行 成 员 发 现 〈 特 别 是 ， 有 一 层 称 之 为 PNG ) 。 对 于 操作 在 广域网 
上 的 大 规模 系统 ，TCP 层 会 更 适合 些 〈 使 用 TCP 协议 发 送 单 播 消息 ， 依 靠 PING 进行 成 员 发 现 ) 。 
© FRAG 实现 消息 编码 ， 并 按 最 大 消息 大 小 〈 默 认 值 是 8192 字 节 ) 进行 配置 。 
© MERGE 是 处 理 非 预 期 网 络 分 区 以 及 在 分 区 后 合并 子 组 的 协议 。 实 际 上 ， 有 许多 合并 层 是 可 以 
获得 的 ， 从 简单 的 到 用 于 处 理 状 态 转 移 的 《合并 层 ) 。 
e GMS 实现 了 一 个 组 成 员 协 议 ， 用 以 维护 组 成 员 之 间 的 一 致 视图 〈 关 于 组 成 员 管 理 算法 的 更 多 
细节 参见 第 18 章 ) 。 
© CAUSAL 实现 了 6.2.2 节 介 绍 的 因果 序 (在 第 15 章 中 会 进一步 讨论 ) 。 
可 用 的 其 他 协议 层 很 多 ， 包 括 实现 FIFO 排序 和 全 排序 的 协议 ， 成 员 发 现 协议 和 故障 检测 协议 ， 消 
息 加 密 协议 和 实现 流 控 制 策略 的 协议 (PEI JGroups 网 站 [www- jgroups. org] ) 。 注 意 ， 由 于 所 有 层 实 
现 了 相同 的 接口 ， 所 以 ， 它 们 能 以 任何 顺序 组 合 ， 虽 然 由 此 产生 的 许多 协议 楼 没有 任何 意义 。 一 个 组 
的 所 有 成 员 必 须 共 享 相同 的 协议 栈 。 


6.3 发布- 订阅 系统 


我 们 现在 把 注意 力 集中 在 发 布 -订阅 系统 (publish-subscribe systems) [Baldoni and Virgillito 2005 ] 
上 上， 有 时 也 称 为 基于 事件 的 分 布 式 系统 (distributed event-based system) [Muhl et al. 2006], CESE 
介绍 的 所 有 间接 通信 技术 中 应 用 最 为 广泛 的 。 第 1 章 强调 了 很 多 种 类 的 系统 考虑 的 基本 问题 都 是 通信 
和 事件 处 理 (例如 金融 交易 系统 ) 。 更 具体 地 来 说 ， 虽 然 很 多 系统 能 自然 地 映射 到 第 5 章 中 的 请 求 -应 
管 交互 模式 或 者 远程 调用 交互 模式 ,但 是 很 多 系统 不 是 这 样 的 ， 而 是 自然 地 建 模 成 由 事件 提供 的 更 为 
解 耦 和 反应 式 的 编程 风格 。 
在 发 布 -订阅 系统 中 ,发 布 者 (publisher) 发 布 结构 化 的 事件 到 事件 服务 ， 订 阅 者 (subscriber) 
通过 订阅 (subscription) 表达 对 特定 事件 感 兴趣 ， 其 中 订阅 可 以 是 结构 化 事件 之 上 的 任意 模式 。 例 如 ， 
一 个 订阅 者 可 以 表达 对 所 有 和 本 书 相关 的 事件 感 兴趣 ， 如 新 版 本 的 出 版 或 者 相关 的 网 站 更 新 。 发 布 - 
订阅 系统 的 任务 是 把 订阅 与 发 布 的 事件 进行 匹配 ， 保 证 事件 通知 (event notification) 的 正确 传递 。 一 
个 给 定 的 事件 将 被 传递 到 许多 潜在 的 订阅 者 ， 因 此 ， 发 布 - 订阅 本 质 上 是 一 对 多 的 通信 范 型 。 
发 布 -订阅 系统 的 应 用 ”发布 -订阅 系统 被 使 用 在 很 多 应 用 领域 中 ， 尤 其 是 与 大 规模 的 事件 分 发 
相关 的 领域 。 例 子 包括 : . 
。 金融 信息 系统 ; 
。 实时 数据 直接 输入 的 其 他 领域 (包括 RSS W); 
。 支持 协同 工作 ， 那 里 需要 通知 众多 参与 者 其 共同 感 兴趣 的 事件 ; 
。 支持 无 处 不 在 计算 ， 包 括 管理 来 自 无 处 不 在 基础 设施 的 事件 〈 例 如， 位 置 事件 ) ; 
e 一 系列 监控 应 用 ， 包 括 互联 网 上 的 网 络 监控 。 
发 布 -订阅 也 是 Google 基础 设施 的 一 个 重要 组 件 ， 包 括 将 与 广告 相关 的 事件 〈 诸 如 “广告 点 击 ”) 
分 发 给 感 兴趣 的 人 《参见 第 21 章 ) 。 
为 了 进一步 说 明 这 个 概念 ， 我 们 考虑 一 个 简单 的 交易 室 系统 作为 广泛 的 金融 信息 系统 的 一 个 例子 。 
交易 室 系 统 : 考虑 一 个 简单 的 交易 室 系 统 ， 其 任务 是 允许 交易 者 使 用 计算 机 查看 他 们 交易 的 股票 
市 场 价格 的 最 新 信息 。 一 个 已 命名 的 股票 的 市 场 价格 由 相关 对 象 代 表 。 到 达 交 易 室 的 信息 来 自 不 同 的 
外 部 源 ， 代 表 股 票 的 部 分 或 所 有 对 象 的 更 新 ， 并 由 称 作 信息 提供 者 的 进程 收集 。 交 易 者 只 对 自己 的 股 
票 感 兴趣 。 交 易 室 系统 由 完成 两 个 不 同 任务 的 进程 来 实现 ， 
。 信息 提供 者 进程 连续 接收 来 自 单个 外 部 源 的 新 的 交易 信息 。 每 个 更 新 被 看 做 一 个 事件 。 信 息 提 
供 者 发 布 这 些 事件 到 发 布 - 订阅 系统 中 ， 从 而 传递 到 所 有 对 相应 股票 感 兴趣 的 交易 者 处 。 对 于 
每 一 个 外 部 源 ， 将 有 一 个 独立 的 信息 提供 者 进程 与 之 对 应 。 

。 交易 者 进程 创建 一 个 订阅 ， 该 订阅 代表 用 户 要 求 显示 的 股票 。 每 个 订阅 表达 了 对 相关 信息 提供 
者 处 的 与 给 定 股票 相关 的 事件 的 兴趣 。 接 着 ,交易 者 进程 接收 所 有 发 送 给 它 的 通知 中 的 信息 ， 
并 展示 纵 用 户 。 图 6-7 说 明了 通知 的 通信 。 


Y 
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外 部 源 


图 6-7 交易 室 系 统 


发 布 -订阅 系统 的 特征 ”发布 -订阅 系统 有 两 个 主要 特征 : 

异 构 性 : 当 事 件 通 知 被 用 作 一 种 通信 手段 时 ， 分 布 式 系统 中 没有 被 设计 实现 互 操作 的 组 件 可 以 在 
一 起 工作 。 需 要 的 只 是 生成 事件 的 对 象 发 布 它们 提供 的 事件 的 类 型 其 他 对 象 订阅 事件 模式 ， 并 提供 
一 个 用 于 接收 和 处 理 结果 通知 的 接口 。 例 如 ，Bates [1996] 描述 了 如 何 用 发 布 -订阅 系统 来 连接 互 
联网 中 的 异 构 组 件 。 他 们 描述 了 一 个 系统 ,该 系统 中 应 用 能 够 感知 用 户 的 位 置 和 活动 ， 例 如 使 用 计算 
机 、 打 印 机 或 者 有 电子 标签 的 书籍 。 他 们 设想 在 未 来 使 用 的 家 庭 网 络 能 够 支持 一 些 命令 , 例如 “如 果 
孩子 到 家 了 ， 打 开 中 央 供暖 系统 ”。 

异步 性 : 通知 是 由 生成 事件 的 发 布 者 异步 地 发 送 到 所 有 对 其 感 兴趣 的 订阅 者 的 ， 防 止 发 布 者 需要 
与 订阅 者 同步 一 一 发 布 者 和 订阅 者 需要 解 而 。Mushroom [ Kindberg et al. 1996] 是 一 个 基于 对 象 的 发 
布 - 订 阅 系统 ， 该 系统 设计 用 于 支持 协同 工作 ， 用 户 接 口 显 示 了 代表 用 户 的 对 象 及 信息 对 象 ( 例 如 ， 
在 共享 工作 空间 中 的 文档 和 记事 本 ， 这 里 ， 共 享 空间 被 称 为 网 络 地 点 ) 。 每 个 网 络 地 点 的 状态 被 复制 到 
当前 身 处 那个 地 点 的 用 户 的 计算 机 上 。 事 件 被 用 来 描述 对 象 的 改变 和 用 户 关注 的 兴趣 点 的 改变 。 例 如 ， 
事件 可 以 指明 一 个 用 户 已 经 进入 、 离 开 一 个 地 点 或 者 对 一 个 对 象 执行 了 一 个 特定 的 动作 。 与 特定 类 事 
件 类 型 相关 的 任意 对 象 的 每 个 副本 通过 订阅 表示 对 特定 类 型 事件 的 相关 信息 感 兴趣 ， 当 事件 发 生 时 ， 副 
本 会 收 到 通知 消息 。 但 是 事件 的 订阅 者 与 经 历 事件 的 对 象 是 解 厢 的 ， 因 为 不 同 的 用 户 活跃 在 不 同时 期 。 

另外 ， 可 以 为 通知 提供 各 种 不 同 的 传递 保证 ， 具 体 选 择 将 依赖 于 应 用 的 需求 。 例 如 ， 如 果 使 用 下 
组 播 向 一 组 接收 者 发 送 通知 ， 那 么 故障 模型 将 和 4. 4.1 节 IP 组 播 中 描述 的 相关 ， 也 将 不 能 保证 特定 收 
件 人 收 到 特定 的 通知 消息 。 这 对 一 些 应 用 是 合适 的 一 一 例如 ， 互 联网 游戏 中 传送 玩家 的 最 新 状态 一 一 
因为 下 次 更 新 可 能 已 经 到 达 。 

然而 ， 其 他 应 用 有 更 强 的 需求 。 考 虑 交易 室 应 用 : 为 了 在 对 某 个 特定 股票 感 兴趣 的 交易 者 之 间 保 持 
公平 ， 我 们 要 求 对 于 关心 同一 股票 的 所 有 交易 者 收 到 相同 的 信息 。 这 意味 着 必须 使 用 可 靠 的 组 播 协议 。 

在 上 文 提 到 的 Mushroom 系统 中 ， 对 象 状态 改变 的 通知 被 可 靠 地 传递 到 服务 器 ， 该 服务 器 的 职责 是 维护 
最 新 的 对 象 副本 。 然 而 ， 通 知 也 可 能 通过 不 可 靠 组 播 被 发 送 到 用 户 计算 机 上 的 对 象 副本 。 在 后 者 丢失 通知 的 
情况 下 ， 它 们 可 以 从 服务 器 获取 对 象 状态 。 当 应 用 程序 需要 时 ， 通知 可 以 被 有 序 、 可 靠 地 发 送 到 对 象 副 本 。 

一 些 应 用 有 实时 需求 ， 例 如 ， 核 电站 报告 的 事件 或 者 医院 患者 监控 器 报告 的 事件 。 在 一 个 满足 同 
步 分 布 式 系统 特点 的 系统 中 ， 设 计 组 播 协议 提供 可 靠 、 有 序 及 实时 的 保证 是 可 能 的 。 

在 下 面 的 章节 中 ， 我 们 将 详细 讨论 发 布 - 订阅 系统 ， 先 看 看 发 布 - 订阅 系统 提供 的 编程 模型 ， 然 
后 查看 一 些 主要 的 实现 挑战 ， 尤 其 是 和 互联 网 上 大 规模 事件 分 发 相关 的 。 
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6.3.1 ”编程 模型 


发 布 -订阅 系统 的 编程 模型 是 基于 一 个 小 的 操作 集 ， 如 图 6-8 所 示 。 发 布 者 道 过 publish(e) 操作 
分 发 事件 se， 订阅 者 通过 订阅 表明 对 某 事件 集 感 兴趣 。 具 体 而 言 ， 他 们 通过 subscribe(f) 操作 实现 该 目 
标 ， 这 里 , 了 是 一 个 过 滤器 ,过 滤器 是 定义 在 所 有 可 能 发 生 的 事件 集 上 的 一 个 模式 。 过 滤器 〈 因 而 也 
是 订阅 ) 的 表达 能 力 是 由 订阅 模型 决定 的 ; 下 面 将 对 此 详细 讨论 。 随 后 订阅 者 可 以 通过 相应 的 unsub- 
scribe(f) 操作 取消 对 事件 的 兴趣 。 当 事件 到 达 订 阅 者 时 ， 事 件 是 使 用 notify(e) 操作 被 传递 的 。 

发 布 者 订阅 者 


subscribe (t1) 
publish (el) 


notify Cel) 


advertise (tl ) 





图 6-8 发 布 -订阅 范 型 


一 些 系统 通过 引入 广告 的 概念 补充 上 面 的 操作 集 。 有 了 广告 ， 发 布 者 可 以 选择 通过 advertise (f) 
操作 ， 声 明 未 来 将 要 发 生 的 事件 的 特性 。 广 告 是 根据 感 兴趣 的 事件 类 型 〈 它 们 采取 和 过 滤器 相同 的 形 


25) R) 定义 的 。 





换 句 话说 ， 订 阅 者 用 订阅 声明 他 们 的 兴趣 ， 发 布 者 通过 广告 声明 它们 将 要 生成 的 事件 类 型 。 广 告 
可 以 通过 调用 unadvertise(f) 而 被 取消 。 

正如 上 面 提 到 的 ， 发 布 -订阅 系统 的 表达 能 力 由 订阅 〈 过 滤器 ) 模型 决定 ,下面 是 一 些 已 定义 的 
和 仔细 考虑 过 的 模式 ， 按 照 复 杂 度 递增 的 顺序 列 出 : 

ATAU: 在 这 种 方法 中 ， 发 布 者 发 布 事件 到 命名 的 渠道 ， 订 阅 者 订阅 其 中 一 个 已 命名 的 渠道 ， 
并 接收 所 有 发 送 到 那个 渠道 的 事件 。 这 是 一 个 相对 原始 的 模式 ， 也 是 唯一 一 个 定义 了 物理 渠道 的 模式 ; 
所 有 其 他 模式 采用 对 事件 内 容 的 某 种 形式 的 过 滤 ， 我 们 将 在 下 面 看 到 这 点 。 尽 管 简单 ， 这 种 模式 已 经 
被 成 功用 于 CORBA 事件 服务 〈 参 见 第 8 章 )。 

基于 主题 : 这 种 方法 中 ， 我 们 假设 每 个 通知 用 一 定数 量 的 域 来 表达 ， 其 中 的 一 个 域 表示 主题 。 订 
阅 是 根据 感 兴趣 的 主题 来 定义 的 。 这 个 方法 等 价 于 基于 疙 道 的 方法 ,不 同 的 是 基 于 渠道 的 方法 中 的 主 
题 是 隐 式 的 ， 而 基于 主题 的 方法 中 的 主题 作为 一 个 域 被 显 式 地 声明 了 。 通 过 层次 化 地 组 织 主题 ， 可 以 
增强 基于 主题 的 方法 的 表达 能 力 。 例 如 ， 考 虑 本 书 的 发 布 - 订阅 系统 。 订 阅 可 以 按 indirect_communica- 
tion 或 indirect_communication/ publish — subscribe 定义 。 表达 对 前 者 感 兴趣 的 订阅 者 会 收 到 关于 本 章 的 所 


有 事件 ， 然 而 后 一 种 订阅 者 可 以 表达 对 发 布 - 订阅 这 个 更 特定 的 主题 感 兴趣 。 


基于 内 容 : 基于 内 容 的 方法 是 基于 主题 方法 的 一 般 化 ， 它 允许 订阅 表达 式 具 有 一 个 事件 通知 上 的 
多 个 域 。 更 具体 来 说 ， 基 于 内 容 的 过 滤器 是 用 事件 属性 值 的 约束 组 合 定义 的 查询 。 例 如 ， 一 个 订阅 者 
可 以 表达 对 与 发 布 - 订阅 系统 的 某 个 主题 相关 的 事件 感 兴趣 ， 其 中 ， 要 查询 的 系统 是 “CORBA 事件 服 
务 "， 作 者 是 “Tim Kindberg” 或 者 “Gordon Blair” 。 相 关 查 询 语言 的 复杂 度 是 随 着 系统 的 不 同 而 不 同 
的 , 但 总 体 来 说 ， 这 种 方法 的 表达 能 力 强 于 基于 渠道 的 和 基于 主题 的 方法 , 但 是 面临 新 的 重大 实现 挑 
战 〈 下 面 会 讨论 到 ) 。 
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基于 类 型 : 这 些 方法 和 基于 对 象 的 方法 有 内 在 关联 ， 在 基于 对 象 的 方法 中 ， 对 象 有 一 个 指定 的 类 型 。 
在 基于 类 型 的 方法 中 ， 订 阅 根据 事件 类 型 来 定义 ， 匹 配 根据 给 定 的 过 滤器 的 类 型 或 者 子 类 型 来 定义 。 这 
种 方法 可 以 表达 一 定 范围 的 过 滤器 ， 从 基于 整体 类 型 名 称 的 粗 粒 度 的 过 滤器 到 定义 了 给 定 对 象 的 属性 和 
方法 的 细 粒 度 的 过 滤器 。 这 种 细 粒 度 的 过 滤器 在 表达 能 力 上 和 基于 内 容 的 方法 相似 。 基 于 类 型 的 方法 的 
优点 是 它们 可 以 被 很 好 地 集成 到 编程 语言 中 ， 可 以 检查 订阅 类 型 的 正确 性 ， 忽 略 一 些 订 阅 错误 。 

除了 这 些 经 典 的 分 类 ， 一些 商 业 系 统 基于 直接 订阅 感 兴趣 的 对 象 。 这 些 系统 类 似 于 基于 类 型 的 方 
法 ， 这 是 因为 它们 和 基于 对 象 的 方法 有 内 在 关联 ， 它 们 的 不 同 在 于 关注 感 兴 趣 的 对 象 状态 的 改变 ， 而 
不 是 与 对 象 类 型 关联 的 谓词 。 它 们 允许 一 个 对 象 对 男 一 个 对 象 发 生 的 改变 做 出 反应 。 事 件 的 通知 是 异 
步 的 ， 由 通知 的 接收 者 决定 。 尤 其 是 ， 在 交互 应 用 中 ， 用 户 在 对 象 上 执行 的 行动 ， 例 如 ， 用 鼠标 操作 
一 个 按钮 ， 用 键盘 在 文本 框 中 输入 文本， 都 被 看 做 事件 ， 这 些 事件 引起 保存 应 用 状态 的 对 象 的 改变 。 
每 当 状态 改变 时 ， 负 责 展 示 当 前 状态 视图 的 对 象 会 得 到 通知 。 

Rosenblum 和 Wolf[ 1997] 描述 了 此 类 发 布 -订阅 系统 的 整体 体系 结构 。 在 他 们 的 体系 结构 中 ， 主 
要 的 组 件 是 事件 服务 ， 它 维护 了 一 个 事件 通知 和 订阅 者 兴趣 的 数据 库 。 当 事件 在 感 兴趣 的 对 象 上 发 生 
时 ， 事 件 服务 会 收 到 通知 。 订 阅 者 通知 事件 服务 关于 它们 感 兴趣 的 事件 类 型 。 当 事件 在 感 兴趣 的 对 象 
上 发 生 时 ， 包 含 通知 的 消息 将 直接 发 送 到 该 事件 类 型 的 订阅 者 。 

Arnold 等 [1999] 描述 的 Jini 分 布 式 事件 规约 是 这 种 方法 的 典范 ， 关 于 Jini 的 实例 研究 ， 以 及 这 
种 方法 的 背景 信息 可 以 参见 本 书 的 网 站 [www. cdk5. net/rmi] 。 然 而 ，Jini 是 基于 事件 的 分 布 式 系统 相 
对 初级 的 例子 ， 它 允许 事件 的 生产 者 和 消费 考 直接 相连 〈 因 此 破坏 了 时 间 和 空间 的 解 炮 )。 

更 多 的 实验 方法 正在 研究 中 。 例 如 ,一些 研究 者 考虑 用 上 下 文 增加 额外 的 表达 能 力 [Frey and Ro- 
man 2007, Meier and Cahill 2010] 。 上 下 文 和 上 下 文敏 感 是 移动 和 无 处 不 在 计算 中 的 主要 概念 。 在 第 19 
章 ， 上 下 文 被 定义 成 与 系统 行为 相关 的 物理 环境 的 一 个 方面 。 上 下 文 的 一 个 直观 的 例子 是 位 置 ， 这 种 
系统 可 以 提供 用 户 订阅 和 一 个 与 给 定位 置 相关 的 事件 一 一 例如 ， 和 用 户 所 在 建筑 相关 的 任何 紧急 消息 。 
Cilia 等 [2004] 引入 了 基于 概念 的 订阅 模型 ， 在 该 模型 中 ， 过 滤器 可 以 根据 事件 的 语义 和 语法 进行 表 
述 。 更 具体 来 说 ， 数 据 项 有 一 个 相关 联 的 语义 上 下 文 ， 该 上 下 文 表达 了 这 些 项 的 意义 ， 这 种 方式 允许 
对 数据 项 进行 解释 并 翻译 成 不 同 的 数据 格式 ， 从 而 解决 了 异 构 性 问题 。 

对 于 某 些 类 应 用 ， 例 如 第 1 章 中 描述 的 金融 交易 系统 ， 若 订阅 仅 能 表达 对 单个 事件 的 查询 ， 那 么 
这 是 不 够 的 。 需 要 一 个 更 为 复杂 的 、 能 够 识别 复杂 事件 模式 的 系统 。 例 如 ， 第 1 章 介绍 了 根据 观察 与 
股票 价格 相关 的 事件 的 时 间 序 列 来 买 人 和 卖 出 股份 例子 ， 这 说 明了 对 复杂 事件 处 理 的 需要 (或 者 有 时 
称 为 复合 事件 检测 ) 。 因 为 发 生 在 分 布 式 环境 中 ， 复 杂事 件 处 理 允 许 指定 事件 模式 一 一 例如 , “如 果 伊 
旬 园 河 在 至 少 三 个 地 方 水 位 上 升 至 少 20% ， 而 且 仿真 模型 也 报告 有 洪水 泛滥 的 危险 ， 那 么 通知 我 。 
第 1 章 中 出 现 的 事件 模式 更 进一步 的 例子 涉及 在 一 段 给 定时 间 内 股票 价格 波动 的 检测 。 总 的 来 说 ， 模 
式 可 以 是 逻辑 的 、 时 间 上 的 或 空间 上 的 。 复 杂事 件 处 理 的 进一步 信息 ， 请 参阅 Muhl [2006]. 


6. 3.2 实现 问题 


从 上 面 描述 的 ， 发 布 -订阅 系统 的 任务 是 很 清楚 的 : 保证 所 有 事件 被 有 效 地 传递 到 有 过 滤器 与 事 
件 匹 配 的 所 有 订阅 者 。 在 此 之 上 ， 可 以 有 安全 性 、 可 伸缩 性 、 故 障 处 理 、 并 发 和 服务 质量 等 额外 需求 。 
这 使 得 发 布 -订阅 系统 的 实现 相当 复杂 ， 而 这 在 学 术 界 也 一 直 是 热点 研究 领域 。 下 面 我 们 考虑 主要 的 
实现 问题 ， 在 考虑 实现 发 布 - 订阅 系统 所 需要 的 总 的 系统 体系 结构 之 前 ， 先 研究 集中 式 还 是 分 布 式 实 
现 〈 尤 其 是 基于 内 容 方 法 的 分 布 式 实现 ) 。 我 们 通过 引用 相关 的 文献 和 总 结 发 布 - 订阅 系统 的 设计 空 
间 来 结束 本 节 。 

集中 式 实现 与 分 布 式 实现 已 经 有 许多 实现 发 布 - 订阅 系统 的 体系 结构 。 最 简单 的 方法 是 单 结 点 
服务 器 方式 的 集中 式 实现 ， 在 那个 结 点 上 的 服务 器 作为 事件 代理 。 发 布 者 发 布 事 件 (而且 可 以 选择 是 
否 发 布 广告 )》 到 该 代理 ， 订 阅 者 发 送 订 阅 到 代理 并 接收 返回 的 通知 。 与 代理 的 交互 是 通过 一 系列 点 对 
点 的 消息 ; 这 个 可 以 通过 使 用 消息 传递 或 远程 调用 来 实现 。 

这 种 方法 易于 实现 ， 但 是 设计 缺少 弹性 和 可 伸缩 性 ， 因 为 集中 式 代理 意味 着 可 能 的 单 点 故障 和 性 
PES. A, 发布 -订阅 系统 的 分 布 式 实现 也 是 可 用 的 。 在 这 种 模式 下 ,集中 式 代理 被 代理 网 络 
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(network of broker) 所 取代 ， 期 望 的 代理 网 络 合作 提供 的 功能 如 图 6-9 所 示 。 这 些 方法 有 能 力 从 结 点 故 
障 中 生存 下 来 ， 并 已 被 证 明 能 够 在 互联 网 规模 的 部 署 中 运作 良好 。 
发 布 者 订阅 者 


代理 的 网 络 









图 6-9 代理 的 网 络 


更 进一步 来 看 ， 也 可 能 以 一 种 完全 对 等 的 方式 实现 发 布 - 订阅 系统 。 这 是 最 近 一 个 很 流行 的 系统 
实现 策略 。 在 这 种 方法 中 ， 发 布 者 、 订 阅 者 和 代理 之 间 没 有 区 别 ;， 所 有 结 点 都 是 代理 ， 它 们 合作 实现 
所 需 的 事件 路 由 功能 (下面 进一步 讨论 ) 。 

总 的 系统 体系 结构 ”如 上 所 述 ， 集 中 式 模式 的 实现 相对 简单 ， 即 用 中 央 服 务 维护 订阅 库 ， 并 用 订 
阅 匹 配 形成 事件 通知 。 类 似 的 ， 基 于 渠道 或 基于 主题 的 模式 的 实现 也 是 相对 简单 的 。 例 如 ， 一 个 分 布 
式 实现 可 以 通过 将 渠道 或 主题 映射 到 相关 的 组 (如 第 6.2 节 定义 的 ) ， 然 后 使 用 底层 组 播 通信 设施 传递 
事件 到 感 兴趣 的 各 方 〈 适 当 使 用 组 播 的 可 靠 和 有 序 的 变种 ) 。 基 于 内 容 的 分 布 式 实现 方法 较为 复杂 
(推断 认为 ， 基 于 类 型 的 方法 也 是 如 此 ) ， 需 要 进一步 考虑 。 图 6-10 中 描述 了 这 种 方法 体系 结构 选择 的 
范围 (改编 自 Baldoni 和 Virgillito [2005] ) 。 

Pig 发 布 -订阅 系统 的 体系 结构 - = 





事件 路 由 





覆盖 网 络 





网 络 协议 


6-10 发 布 -订阅 系统 的 体系 结构 


在 底层 ， 发 布 - 订阅 系统 使 用 一 系列 进程 间 通 信服 务 ， 例 如 TCP/IP, IPA RTH) 或 者 更 
专门 的 服务 〈 例 如 由 无 线 网 络 提供 的 ) 。 体 系 结构 的 核心 是 由 网 络 覆 盖 基 础 设施 支持 的 事件 路 由 层 提 
供 。 事 件 路 由 层 的 任务 是 保证 事件 通知 可 以 高 效 地 路 由 到 合适 的 订阅 者 ， 而 这 由 覆盖 基础 设施 通过 建 
立 适当 的 代理 网 络 或 P2P 结构 来 支持 。 对 于 基于 内 容 的 方法 ， 这 个 路 由 问题 被 称 作 基于 内 容 的 路 由 
(Content-Based Routing ，CBR) ， 目 的 是 利用 内 容 信息 将 事件 有 效 地 路 由 到 指定 的 目的 地 。 顶 层 实 现 匹 
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配 ， 也 就 是 说 ， 保 证 事件 与 一 个 给 定 的 订阅 进行 匹配 。 虽 然 这 可 以 作为 一 个 独立 的 层 实 施 ， 但 匹配 党 
常 被 推 到 事件 路 由 机 制 中 ， 随 后 便 会 看 到 这 种 情况 。 

在 这 个 总 的 体系 结构 内 ， 有 很 多 实现 方法 。 我 们 会 逐步 通过 一 套 精 选 的 实现 技术 来 说 明基 于 内 容 
的 路 由 背后 的 一 般 原 则 : 

HR: 最 简单 的 方法 是 基于 泛 洪 ， 也 就 是 ， 向 网 络 中 的 所 有 结 点 发 送 事 件 通知 ,在 订阅 者 端 执行 
适当 的 匹配 。 作 为 另 一 种 方案 ， 可 以 用 泛 洪 发 送 订阅 到 所 有 可 能 的 发 布 者 ， 在 发 布 端 执行 匹配 ， 匹 配 
成 功 的 事件 通过 点 对 点 通信 被 直接 发 送 到 相关 的 订阅 者 。 泛 洪 可 以 利用 底层 广播 或 者 组 播 设施 来 实现 。 
另外 ， 代 理 可 以 被 安排 在 无 环 图 中 ， 其 中 ， 每 一 个 代理 把 到 达 的 事件 通知 转发 给 所 有 邻居 。( 从 而 有 效 
提供 了 一 个 组 播 柳 盖 ， 相 关 讨 论 见 4. 5. 1 节 。) 这 种 方法 的 优点 是 简单 ， 但 是 会 导致 很 多 不 必要 的 网 络 
流量 。 因 此 ， 下 面 描述 的 替代 方案 尝试 通过 考察 内 容 来 优化 消息 交换 的 数量 。 

过 滤 : 一 个 支撑 许多 方法 的 原则 是 在 代理 网 络 中 采用 过 滤 (地 tering) ， 这 种 方法 被 称 为 基于 过 滤 的 
路 由 。 代 理 通 过 一 个 有 路 径 到 达 有 效 订阅 者 的 网 络 转发 通知 。 它 的 实现 是 通过 先 向 潜在 的 发 布 者 传播 订 
阅 信 息 ， 然 后 在 每 个 代理 上 存储 相关 状态 。 更 具体 来 说 ， 每 个 结 点 必须 维护 一 个 邻居 列表 (该 列表 包含 
了 该 结 点 在 代理 网 络 中 所 有 相连 接 的 邻居 ) ， 一 个 订阅 列表 〈 该 列表 包含 了 由 该 结 点 为 之 服务 的 所 有 直 
接连 接 的 订阅 者 ) ， 以 及 一 个 路 由 表 。 重 要 的 是 ， 这 个 路 由 表 维 护 该 路 径 上 的 邻居 和 有 效 订阅 的 列表 。 

这 个 方法 也 需要 在 代理 网 络 中 的 每 个 结 点 上 实现 匹配 ; JURE, match 孙 数 以 给 定 的 事件 通知 、 一 
系列 结 点 以 及 相关 的 订阅 作为 参数 ， 返 回 通知 与 订阅 成 功 匹 配 的 结 点 集 。 图 6-11 描述 了 这 种 过 滤 方 法 
所 用 的 详细 算法 (来 自 Baldoni and Virgillito [2005 ]) 。 当 一 个 代理 收 到 来 自给 定 结 点 的 发 布 请 求 时 ， 
它 把 事件 通知 传送 到 所 有 连接 的 有 相应 匹配 订阅 的 结 点 ， 并 决定 在 代理 的 网 络 中 将 事件 传播 到 何 处 。 
第 2 行 和 第 3 行 通过 把 事件 和 订阅 列表 相 匹配 ， 并 将 事件 转发 到 所 有 成 功 匹配 订阅 的 结 点 〈 即 match- 
list) 来 实现 第 一 个 目标 。 第 4 AS 行 重新 使 用 匹配 函数 ， 这 次 将 事件 和 路 由 表 相 匹 配 ， 然 后 ， 仅 将 事 
件 转发 到 通 往 订阅 的 路 径 (fwdlist) 。 代 理 还 需要 处 理 到 达 的 订阅 事件 。 如 果 订 阅 事件 来 自 于 一 个 直接 
相连 的 订阅 者 ,那么 订阅 必须 加 入 到 订阅 表 中 〈 第 7 和 8 行 )。 否 则 ,代理 是 一 个 中 介 结 点 ; 该 结 点 知 
道 通 往 这 个 订阅 的 路 径 存 在 ， 因 此 向 路 由 表 中 添加 相应 的 条 目 (第 9 行 )。 在 这 两 种 情况 下 ， 订 阅 事件 
均 被 传递 给 除了 源 结 点 以 外 的 所 有 邻居 结 点 (第 10 行 )。 


upon receive publish(event e) from node x 
matchlist := match(e, subscriptions) 
send notify(e) to matchlist; 
fwalist := match(e, routing); 
send publish(e) to fwalist - x; 
upon receive subscribe(subscription s) from node x 
if x is client then 
add x to subscriptions; 
else add(x, s) to routing; 
send subscribe(s) to neighbours - x; 
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od 





图 6-11 基于 过 滤 的 路 由 


广告 上述 纯 基于 过 滤 的 方法 会 由 于 订阅 的 传播 产生 大 量 的 网 络 流量 ,订阅 本 质 上 采用 了 泛 洪 的 
方法 向 所 有 可 能 的 发 布 者 推送 。 在 有 广告 的 系统 中 ， 通 过 与 订阅 传播 类 似 的 (事实 上 是 对 称 的 ) 方式 
向 订阅 者 传播 广告 ， 这 样 流量 负担 可 以 减少 。 在 这 两 种 方法 间 存 在 有 趣 的 权衡 ， 一 些 系 统 相继 采用 了 
两 种 方法 [Carzaniga et al. 2001 ] 。 

CR: 另外 一 种 控制 订阅 传播 〈 和 实现 自然 的 负载 均衡 ) 的 方法 是 汇聚 (rendezvous) 方法 。 为 
了 理解 这 种 方法 ， 需 要 将 所 有 可 能 的 事件 集合 看 做 一 个 事件 空间 ， 并 且 将 事件 空间 的 责任 划分 到 网 络 
中 的 代理 集合 上 。 特 别 地 ， 这 种 方法 定义 了 汇聚 结 点 ， 汇 聚 结 点 是 负责 一 个 给 定 的 事件 空间 的 子 集 的 
代理 结 点 。 为 了 实现 这 种 方法 ， 一 个 给 定 的 基于 汇聚 的 路 由 (rendezvous-based routing) 算法 必须 定义 
两 个 函数 。 第 一 ，SN(s) 以 一 个 给 定 的 订阅 s 为 参数 ， 返 回 负责 订阅 s 的 一 个 或 者 多 个 汇聚 结 点 。 每 
个 汇聚 结 点 像 上 述 过 滤 方 法 一 样 维护 一 个 订阅 列表 ， 并 将 所 有 的 成 功 匹配 的 事件 转发 到 订阅 结 点 集 。 
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第 二 ， 当 事件 。 被 发 布 ，EN(e) 函数 也 返回 一 个 或 多 个 汇聚 结 点 ， 这 次 这 些 汇 聚 结 点 负责 在 系统 中 将 
e 和 订阅 进行 匹配 。 注 意 ， 如 果 考 虑 到 可 靠 性 ，SN(*) 和 EN(e) 都 可 以 返回 多 于 一 个 结 点 。 还 要 注意 ， 


这 种 方法 仅 在 如 下 情况 下 可 行 : 对 于 一 个 给 定 
的 与 * 进行 匹配 的 e，ENV(e) 和 SN(s) 交集 必 
须 非 空 (由 Baldoni 和 Virgillito [2005] 定义 ， 
被 称 为 映射 交集 规则 ) 。 图 6-12 给 出 了 基于 汇 
聚 的 路 由 的 相应 代码 (也 来 自 Baldoni 和 Virgil- 
lito[2005] ) 。 这 次 ， 我 们 将 算法 的 解释 留 给 读 
者 作为 习题 (参见 习题 6. 11) 。 

对 基于 汇聚 的 路 由 的 一 种 解释 是 将 事件 空 
间 映 射 到 分 布 式 散 列表 (Distributed Hash Table, 
DHT) 。4. 5. 1 节 简 单 介绍 了 分 布 式 散 列表 ， 第 
10 章 将 对 它 进 行 详 细 探讨 。 一 个 分 布 式 散 列表 





upon receive publish(event e) from node x at node i 
rvlist := EN(e); 
if i in rvlist then begin 
matchlist <- match(e, subscriptions); 
send notify(e) to matchlist; 
end 
send publish(e) to rviist - i; 
upon receive subscribe(subscription s) from node x at node i 
rvlist := SN(s); 
if i in rvlist then 
add s to subscriptions; 
else 
send subscribe(s) to rvlist; 














图 6-12 ”基于 汇聚 的 路 由 


是 一 种 网 络 覆盖 形式 ， 它 将 散 列表 分 布 到 一 个 PP 网 络 的 结 点 集合 中 。 对 于 基于 汇聚 的 路 由 最 重要 的 
发 现 是 ， 散 列 函数 可 以 被 用 于 将 事件 和 订阅 映射 到 相应 的 管理 这 些 订阅 的 汇聚 结 点 上 。 

有 可 能 采用 其 他 对 等 中 间 件 方法 来 支持 发 布 - 订阅 系统 中 的 事件 路 由 。 确 实 ， 这 个 研究 领域 很 活 
牙 ， 有 很 多 创新 和 令 人 关注 的 方法 出 现 ， 尤 其 是 针对 非常 大 规模 的 系统 [ Carzaniga et al. 2001 ] 。 一 种 
专门 的 方法 是 采用 闲聊 协议 作为 支持 事件 路 由 的 一 种 手段 。 正 如 在 18. 4. 1 节 讨 论 的 ， 基 于 闲聊 的 方法 
是 一 种 常见 的 实现 组 播 (包括 可 舒 组 播 ) 的 机 制 。 它 们 的 运作 主要 通过 网 络 中 的 结 点 周期 性 地 、 以 一 
定 概率 地 与 邻居 结 点 交换 事件 (或 数据 ) 。 通 过 这 种 方法 ， 可 以 实现 有 效 地 传播 事件 ， 无 需 考虑 网 络 
结构 ， 而 其 他 方法 常常 对 网 络 结构 有 一 定 的 约束 。 一 个 纯 的 闲聊 方法 实际 上 是 上 述 泛 洪 实 现 的 一 个 替 
换 策略 。 然 而 ， 它 可 以 考虑 本 地 信息 和 内 容 (尤其 是 后 者 ) 来 实现 所 谓 的 知情 闲聊 (informed gossip) 。 
这 些 方法 在 网 络 断 连 或 结 点 退出 多 的 高 动态 环境 下 特别 有 吸引 力 [Baldoni et al. 2005] 。 


6. 3.3 发 布 -订阅 系统 的 例子 


我 们 通过 列举 一 些 主要 的 发 布 - 订阅 系统 来 总 结 本 节 ， 为 进一步 阅读 提供 参考 (参见 图 6-13)。 











系统 〈 和 进一步 阅读 ) 订阅 模型 分 布 模型 事件 路 由 
CORBA 事件 服务 (第 8 章 ) 基于 渠道 的 集中 式 的 一 
TIB Rendezvouz [Oki et al. 1993 ] 基于 主题 的 分 布 式 的 UE) 
Scribe [Castro et al. 2002b ] 基于 主题 的 对 等 的 (DHT) 汇聚 
TERA [Baldoni et al. 2007] 基于 主题 的 对 等 的 知情 闲 淡 
Siena[Carzaniga et al.2001] 基于 内 容 的 分 布 式 的 BU 
Gryphon [www.research.ibm.com] 基于 内 容 的 分 布 式 的 we 
Hermes [Pietzuch and Bacon 2002] 基于 主题 和 内 容 的 。 分布 式 的 RA 
MEDYM[Cao and Singh 2005] 基于 内 容 的 分 布 式 的 zy 
Meghdoot[Gupta et al. 2004] THAR 对 等 的 汇聚 
Structure-less CBR [Baldoni et al. 2005] 基于 内 容 的 对 等 的 知情 闲谈 








图 6-13 发布 -订阅 系统 的 例子 


图 6-13 还 收集 了 发 布 -订阅 系统 的 设计 空间 ， 说 明了 订阅 模型 和 分 布 模型 的 决策 ， 尤 其 是 ， 底 层 
的 事件 路 由 策略 ， 是 如 何 导致 不 同 的 设计 的 。 注 意 事件 路 由 不 需要 集中 式 模式 ， 因 此 相应 处 是 空白 项 。 


6.4 消息 队列 


消息 队列 〈 或 者 更 准确 地 说 ， 分 布 式 消息 队列 ) 是 间接 通信 系统 的 一 个 重要 的 类 别 。 相 对 于 组 和 
发 布 -订阅 提供 了 一 对 多 的 通信 方式 ， 消 息 队 列 使 用 队列 概念 作为 一 种 间接 机 制 提 供 点 对 点 的 服务 ， 
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从 而 实现 所 期 望 的 时 间 和 空间 解 耦 性 质 。 它 们 是 点 对 点 的 ， 这 是 因为 发 送 者 将 消息 放置 到 队列 中 ， 此 
后 由 一 个 进程 移 走 该 消息 。 消 息 队 列 也 称 为 面向 消息 的 中 间 件 。 这 是 一 类 重要 的 商业 中 间 件 ， 主 要 实 
现 包括 IBM 的 WebSphere MQ, Microsoft 的 MSMQ 和 Oracle 的 Streams Advanced Queuing (AQ) 。 这 类 产 
品 的 主要 用 途 是 实现 企业 应 用 集成 (Enterprise Application Integration，EAI) ， 即 在 企业 中 实现 应 用 之 间 
的 集成 ， 该 目标 是 通过 消息 队列 内 在 的 松 而 合 实现 的 。 由 于 其 对 事务 的 内 在 支持 ， 它 们 还 被 广泛 用 作 
商业 事务 处 理 系统 的 基础 ， 进 一 步 的 讨论 见 6.4.1 节 。 

下 面 我 们 将 更 加 详细 地 讨论 消息 队列 ， 在 讨论 消息 队列 的 实现 问题 之 前 ， 先 考虑 由 消息 队列 系统 
提供 的 编程 模型 。 下 面 把 Java 消息 服务 (Java Messaging Service, JMS) 作为 支持 消息 队列 (还 有 发 
布 -订阅 ) 中 间 件 规约 的 例子 加 以 介绍 ， 并 以 此 结束 本 节 。 


6.4.1 编程 模型 


消息 队列 提供 的 编程 模型 很 简单 。 它 提供 了 在 分 布 式 系统 中 通过 队列 进行 通信 的 一 种 方法 。 尤 其 是 ， 
生产 者 进程 发 送 消 息 到 特定 队列 ， 其 他 (消费 者 ) 进程 从 该 队列 中 接收 消息 。 通 常 支持 三 种 接收 方式 : 

。 阻塞 接收 : 保持 阴 塞 直到 有 合适 的 消息 可 用 为 止 。 

。 FERK (EHRE): 检查 队列 的 状态 ,返回 可 用 消息 ,或 者 一 个 不 可 用 的 指示 。 

。 通知 操作 : 当 在 相关 的 队列 中 有 一 条 消息 可 用 时 ， 会 发 出 一 个 事件 通知 。 

图 6-14 形象 地 描述 了 所 有 的 这 些 方法 。 


生产 者 消息 队列 系统 消费 者 














消息 o 
图 6-14 消息 队列 范 型 


一 些 进程 能 将 消息 发 送 到 同一 个 队列 ， 同 样 也 有 一 些 接 收 者 能 从 队列 中 取出 消息 。 排 队 的 策略 通 
常 是 先进 先 出 (FIFO), 但 大 多 数 消息 队列 的 实现 也 支持 优先 级 概念 ， 即 高 优先 级 的 消息 先 被 传递 。 
消费 者 进程 也 能 基于 消息 的 优先 级 从 队列 中 选择 消息 。 更 具体 来 说 ， 一 条 消息 通常 由 目的 地 ( 即 一 个 
指定 目的 队列 的 唯一 标识 符 ) 、 与 消息 相关 的 元 数据 (包括 如 消息 的 优先 级 、 传 递 模 式 等 字段 ) 和 消 
息 体 组 成 。 消 息 体 通 常 是 不 透明 的 ， 且 未 被 消息 队列 系统 改变 过 。 消 息 体 相 关 的 内 容 可 以 使 用 4 3 节 
所 述 的 任意 标准 方法 进行 序列 化 ; 也 就 是 说 ， 按 数据 类 型 编码 、 对 对 象 进 行 序列 化 或 者 采用 XML 结构 
化 消息 。 消 息 大 小 可 以 配置 ， 可 以 很 大 , 例如， 可 达 100MB 的 数量 级 。 鉴 于 消息 体 不 透明 ， 通 常 通过 
定义 在 元 数据 上 的 谓词 表示 选择 消息 的 规则 。 

Oracle 的 AQ 在 基本 想法 上 引入 了 一 个 有 趣 的 改动 ， 以 更 好 地 实现 与 (关系 型 ) 数 据 库 的 集成 ; 
在 Oracle AQ 中 ， 消 息 是 数据 库 表 中 的 行 ， 队 列 是 数据 库 表 ， 可 以 使 用 数据 库 查 询 语言 的 所 有 功能 对 队 
列 进行 查询 。 

消息 队列 系统 的 一 个 重要 特性 是 消息 是 持久 的 一 一 也 就 是 说 ， 消 息 队 列 会 无 限期 存储 消息 (直到 它 
们 被 消费 为 止 ) ， 并 将 消息 提交 到 磁盘 ， 以 实现 可 靠 传递 。 尤 其 是 , 根据 2.4.2 节 中 “可 靠 通信 ”的 定 
义 ， 发 送 的 任何 消息 最 终 都 会 被 收 到 〈 有 效 性 ) ， 接 收 到 的 和 发 送 的 消息 是 相同 的 ， 没 有 消息 被 发 送 两 
次 (完整 性 ) 。 因 此 ， 消 息 队 列 系统 确保 消息 将 会 被 传递 (上 且 传 递 一 次 ) ， 但 是 不 能 保证 传递 的 时 间 。 

消息 传递 系统 还 能 支持 额外 的 功能 : 
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。 大 部 分 商用 系统 支持 消息 的 发 送 或 接收 可 以 包含 在 一 个 事务 内 。 目 的 是 保证 或 者 在 事务 中 所 有 
步骤 都 能 完成 ， 或 者 事务 不 产生 任何 作用 (“全 有 或 者 全 无 ”特性 )。 这 依赖 于 由 中 间 件 环境 
提供 的 外 部 事务 服务 接口 。 对 事务 的 详细 讨论 推迟 到 第 16 章 进行 。 

。 一 些 系统 也 支持 消息 转换 ， 据 此 可 以 任意 改造 到 达 的 消息 。 这 个 概念 最 常用 的 应 用 是 转换 不 同 

格式 的 消息 来 处 理 底层 数据 表示 的 异 构 性 。 这 可 能 很 简单 ， 例 如 从 一 个 字 节 序 转换 到 另 一 个 

(大 序 法 到 小 序 法 ) ， 或 者 较 复杂 ， 例 如 从 一 个 外 部 数据 表示 转换 到 另 一 个 〈 例 如 SOAP 到 

TOP) 。 有 些 系统 还 允许 程序 员 开 发 自己 的 特定 于 应 用 的 转换 以 响应 来 自 底 层 消 息 队 列 系统 的 

触发 器 。 在 通常 处 理 异 构 性 以 及 实现 企业 应 用 集成 〈 如 上 所 述 ) 方面 ， 消 息 转 换 是 一 个 重要 

的 工具 。 需 要 注意 的 是 术语 “消息 代理 ”经 常用 来 表示 负责 消息 转换 的 服务 。 

一 些 消 息 队 列 实现 也 提供 安全 性 的 支持 。 例 如 ，WebSphere MQ 使 用 安全 套 接 字 层 (Secure 

Sockets Layer，SSL) 提供 对 保密 数据 传输 的 支持 ， 也 支持 认证 和 访问 控制 。 见 第 11 章 。 

最 后 ， 将 消息 队列 提供 的 编程 风格 与 其 他 通信 范 型 的 编程 风格 进行 比较 ， 这 对 研究 消息 队列 提供 


- 的 编程 抽象 是 有 益 的 。 消 息 队 列 在 很 多 方面 和 第 4 章 介绍 的 消息 传递 系统 很 类 似 。 不 同 的 是 ， 消 息 传 


递 系统 通过 隐 式 队列 与 发 送 方 和 接收 方 相关 〈 例 如 ， 在 MPI 中 前 消息 缓 促 区 ) ， 而 消息 队列 系统 有 显 
式 的 队列 ， 它 们 是 第 三 方 实体 ， 区 分 发 送 者 队列 和 接收 者 队列 。 这 个 最 重要 的 区 别 使 得 消息 队列 成 为 
具有 时 空 解 炎 关 键 特性 的 间接 通信 范 型 。 


6.4.2 实现 问题 


消息 队列 系统 最 重要 的 实现 问题 是 选择 集中 式 实现 还 是 分 布 式 实现 。 一 些 实现 是 集中 式 的 ， 由 位 
于 指定 结 点 上 的 消息 管理 器 管理 一 个 或 者 多 个 消息 队列 。 这 种 模式 的 优点 是 简单 ， 但 是 这 些 管理 器 可 
能 变 成 重量 级 组 件 ， 可 能 成 为 瓶颈 或 单 点 故障 。 因 此 ， 提 出 了 更 多 的 分 布 式 实现 。 为 了 说 明 分 布 式 体 
系 结构 ， 我 们 简要 考虑 一 下 代表 这 一 领域 目前 发 展 水 平 的 WebSphere MQ 采用 的 方法 。 

实例 研究 ; WebSphere MQ WebSpherer MQ 是 IBM 开发 的 基于 消息 队列 概念 的 中 间 件 ， 它 在 消 
息 发 送 者 和 接收 者 之 间 提 供 了 一 个 间接 机 制 www. redbooks. ibm. com], WebSphere MQ 中 的 队列 由 队 
列 管 理 器 (queue manager) 管理 ， 它 存储 并 管理 队列 ， 人 允许 应 用 通过 消息 队列 接口 (Message Queue 
Interface，MQI) 访问 队列 。MQI 是 相对 简单 的 接口 ， 人 允许 应 用 程序 执行 一 些 操作 ， 例 如 与 队列 建立 连 
接 或 者 断 连 (MQCONN 和 MQDISC) ,或 者 从 队列 发 送 /接收 消息 (MQPUT 和 MQGET) 。 多 个 队列 管理 
器 可 以 驻 留 在 一 个 物理 服务 器 上 。 

访问 一 个 队列 管理 器 的 客户 应 用 可 以 驻 留 在 同一 个 物理 服务 器 上 。 更 一 般 地 ， 如 果 它 们 在 不 同 的 机 
器 上 ， 就 必须 通过 所 谓 的 客户 渠道 〈client channel) 和 队列 管理 器 通信 。 客 户 渠 道 采用 我 们 相对 熟悉 的 
代理 的 概念 〈 代 理 的 相关 讨论 见 第 2 章 和 第 5 章 ) ， 即 在 代理 上 发 出 MQI 命令 ， 然 后 这 些 命令 通过 RPC 
被 透明 地 传送 到 队列 管理 器 去 执行 。 这 种 配置 的 一 个 例子 如 图 6-15 所 示 。 在 这 种 配置 下 ， 一 个 客户 应 用 
正在 发 送 消息 到 远 端 队列 管理 器 ， 接 着 多 个 服务 (在 同一 人 台 作 为 服务 器 的 机 器 上 ) 使 用 到 达 的 消息 。 


队列 管理 器 





客户 渠道 
图 6-15 WebSphere MQ 中 的 一 个 简单 网 络 拓扑 
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这 是 WebSphere 的 一 个 简单 使 用 ， 在 实践 中 比较 常见 的 是 队列 管理 器 被 连接 成 一 个 联邦 结构 ， 类 
似 《〈 具 有 代理 网 络 的 ) 发 布 -订阅 系统 经 常 采用 的 方法 。 为 了 实现 这 个 目标 ，MQ 引 人 了 消息 渠道 
(message channel) 的 概念 ， 作 为 两 个 队列 管理 器 之 间 的 单 向 连接 ， 该 消息 渠道 用 于 从 一 个 队列 异步 地 
转发 消息 到 男 一 个 队列 。 注 意 这 里 的 术语 ， 消 息 渠 道 是 两 个 队列 管理 髓 之 间 的 连接 ， 而 客户 炬 道 是 一 
个 客户 应 用 和 一 个 队列 管理 器 之 间 的 连接 。 消 息 渠 道 通 过 两 端的 消息 渠道 代理 (Message Channel 
Agent, MCA) 进行 管理 。 两 个 代理 负责 建立 和 维护 渠道 ， 包 括 最 初 的 对 渠道 特性 的 协商 (包括 安全 特 
性 )。 每 个 队列 管理 器 包含 路 由 表 以 及 渠道 ， 这 允许 创建 任意 的 拓扑 结构 。 

创建 自 定义 的 拓扑 的 能 力 对 于 WebSphere MQ 很 重要 ， 这 使 得 用 户 可 以 针对 应 用 领域 确定 正确 的 拓 
扑 ， 例 如 实现 其 在 可 伸缩 性 和 性 能 方面 的 特定 需求 。WebSphere MQ 为 系统 管理 员 提供 了 工具 ， 用 于 创 
建 合适 的 拓扑 结构 ， 并 隐藏 建立 消息 渠道 和 路 由 策略 的 复杂 性 。 

WebSphere MQ 可 创建 广泛 的 拓扑 结构 ， 包 括 树 形 、 网 格 或 基于 总 线 的 配置 。 为 了 进一步 说 明 拓扑 
的 概念 ， 我 们 给 出 在 WebSphere MQ 部 署 中 经 常 使 用 的 一 个 拓扑 例子 : 集线器 和 辐 条 拓扑 。 

集线器 和 辐 条 (hub-and-spoke) 方法 : 在 集线器 和 辐 条 拓扑 中 ， 指 定 一 个 队列 管理 器 作为 集线器 。 
集线器 承载 一 系列 服务 。 客 户 应 用 并 不 直接 连接 到 这 个 集线器 上 ， 而 是 道 过 指定 作为 辐 条 的 队列 管理 
器 来 连接 。 辐 条 转发 消息 到 集线器 的 消息 队列 以 便 由 不 同 服务 进行 处 理 。 辐 条 按照 某 种 策略 放置 到 网 
络 中 支持 不 同 的 客户 。 集 线 器 放置 在 网 络 中 合适 的 位 置 ， 即 放置 在 有 足够 资源 处 理 网 络 流量 的 结 点 上 。 
大 多 数 应 用 和 服务 位 于 集线器 上 ， 虽 然 辐 条 上 也 可 能 有 很 多 本 地 服务 。 

这 种 拓扑 结构 随 Websphere MQ 被 大 量 使 用 ,尤其 是 用 于 覆盖 重要 地 理 区 域 的 (可 能 跨越 组 织 界 
限 ) 大 规模 部 署 。 这 一 方法 的 关键 是 要 能 通过 高 带宽 连接 到 一 个 本 地 辐 条 ,例如 通过 局 域 网 《 辐 条 可 
以 作为 客户 应 用 被 放置 在 同一 台 物 理 机 器 上 ， 以 使 延迟 最 小 ) 。 

回想 一 下 客户 应 用 和 队列 管理 器 之 间 是 使 用 RPC 进行 通信 的 ,而 队列 管理 器 内 部 的 通信 是 异步 的 
( 非 阻 塞 的 ) 。 这 意味 着 客户 应 用 被 阻塞 ， 直 到 消息 被 存储 在 本 地 消息 管理 器 (本 地 辐 条 ) 中 ; 随后 的 
传递 可 能 在 广域网 上 ， 并 且 是 异步 的 ， 由 WebSphere MQ 中 间 件 保证 传递 是 可 靠 的 。 

很 明显 ， 这 个 体系 结构 的 缺点 是 集线器 将 成 为 潜在 的 瓶颈 和 单 点 故障 。WebSphere MQ 也 支持 其 他 
设施 来 克服 这 些 问题 ， 包 括 队 列 管理 器 集群 ， 该 方式 允许 相同 服务 的 多 个 实例 由 多 个 队列 管理 器 支持 ， 
并 能 在 不 同 的 实例 间 进 行 隐 式 的 负载 均衡 [www. redbooks. ibm. com ]。 


6.4.3 实例 研究 ，Java 消息 服务 


Java 消息 服务 (JMS) [java. sun. com XI] 是 分 布 式 Java 程序 间接 通信 的 一 个 标准 化 规约 。 最 值得 
注意 的 是 ， 该 规约 通过 支持 主题 和 队列 作为 消息 的 另 一 种 是 的 地 ， 至 少 在 表面 上 整合 了 发 布 -订阅 和 
消息 队列 范 型 。 现 在 有 各 种 各 样 的 对 通用 规约 的 实现 ， 包 括 OW2 的 Joram, JBoss 的 Java Messaging. 
Sun 的 Open MQ, Apache 的 ActiveMQ 及 OpenJMS。 其 他 平台 包括 WebSphere MQ 也 提供 一 个 JMS 接口 ， 
用 于 与 它们 的 底层 基础 设施 相连 。 

IMS 区 分 以 下 重要 的 角色 : 

© 一 个 IMS 客户 是 一 个 Java 程序 或 者 组 件 ， 它 产生 或 者 消费 消息 ,一 个 IMS 生产 者 是 一 个 创建 
和 产生 消息 的 程序 ， 一 个 JMS 消费 者 是 一 个 接收 和 消费 消息 的 程序 。 

一 个 IMS 提供 者 是 任 一 个 实现 了 IMS 规约 的 系统 。 

一 个 IMS 消息 是 一 个 用 于 在 JMS 客户 (从 生产 者 到 消费 者 ) 之 间 交 流 信息 的 对 象 。 

一 个 JMS 的 目的 地 是 一 个 在 IMS 中 支持 间接 通信 的 对 象 。 它 可 以 是 一 个 M 主题 或 者 是 一 个 
JMS 队列 。 

用 JMS 编程 JMS API 提供 的 编程 模型 如 图 6-16 所 示 。 为 了 和 一 个 JMS 提供 者 交互 ， 首 先 要 在 一 
个 客户 程序 和 该 提供 者 之 间 创 建 连接 。 这 通过 连接 工厂 (connection factory) (负责 创建 具有 所 需 特性 
的 连接 的 服务 ) 创建 。 由 此 产生 的 连接 是 客户 和 提供 者 之 间 的 逻辑 通道 ， 底层 实现 如 果 是 在 互联 网 上 
实现 的 ， 则 可 以 映射 到 TCP/IP 套 接 字 上 。 注 意 ， 可 以 建立 两 种 类 型 的 连接 ，TopicConnection 或 者 
QueueConnection， 从 而 强制 区 分 了 在 给 定 连接 中 操作 的 两 种 模式 。 

连接 可 以 用 来 创建 一 个 或 者 多 个 会 话 (session) 一 个 会 话 是 一 系列 操作 ， 其 中 涉及 与 一 个 逻辑 
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任务 相关 的 消息 的 创建 、 生 产 和 消费 。 由 此 产生 的 会 话 对 象 也 支持 创建 事务 操作 ， 支 持 一 系列 操作 以 
“全 有 或 全 无 ”方式 执行 ， 相 关 讨 论 见 6.4.1 节 。 基 于 主题 的 会 话 和 基于 队列 的 会 话 有 一 个 很 明确 的 区 分 ， 
这 是 因为 一 个 TopicConnection 可 以 支持 一 个 或 者 多 个 主题 会 话 ， 一 个 QueueConnection 可 以 支持 一 个 或 者 多 
个 队列 会 话 ， 但 是 不 可 能 在 一 个 连接 里 混合 会 话 风 格 。 因 此 ， 这 两 种 操作 风格 的 集成 是 相当 表面 化 的 。 








创建 ----» 通信 
图 6-16 JMS 提供 的 编程 模型 


会 话 对象 是 IMS 操作 的 核心 ， 它 具有 创建 消息 、 创 建 消息 生产 者 、 创 建 消息 消费 者 的 方法 : 
。 在 JMS 中 ,消息 由 三 部 分 组 成 : 头 部 、 特 性 集 和 消息 体 。 头 部 包含 识别 和 路 由 消息 所 需 的 全 部 


信息 ,包括 目的 地 《对 主题 或 者 队列 的 引用 )、 消 息 的 优先 级 、 过 期 日 期 、 消息 ID ATR. 
这 些 域 中 的 大 多 数 由 底层 系统 创建 ， 但 是 一 些 域 的 值 可 以 通过 相关 的 构造 方法 进行 填充 。 特 性 
全 是 由 用 户 定义 的 ， 可 用 于 将 其 他 特定 于 应 用 程序 的 元 数据 元 素 和 消息 关联 起 来 。 例 如 ， 如 果 
实现 一 个 上 下 文敏 感 的 系统 (相关 讨论 见 第 19 章 ) ， 那 么 特性 可 以 用 来 表达 关于 消息 的 额外 的 
EFX (包括 一 个 位 置 域 )。 正 如 在 消息 队列 系统 的 总 体 描述 中 所 说 的 ， 消 息 体 是 不 透明 的 ， 
系统 不 能 对 此 进行 修改 。 在 JMS 中 ， 消 息 体 可 以 是 一 个 文本 消息 、 一 个 字 节 流 、 一 个 序列 化 的 
Java 对 象 、 一 个 原始 的 Java 值 流 或 者 是 更 加 结构 化 的 名 / 值 对 的 集合 。 


。 消息 生产 者 是 一 个 对 象 ， 它 用 来 发 布 特定 主题 下 的 消息 或 者 将 消息 发 送 到 一 个 队列 中 。 
。 消息 消费 考 是 一 个 对 象 ， 它 用 来 订阅 关于 给 定 主题 的 消息 或 者 接收 来 自 一 个 队列 的 消息 。 消 费 


者 远 比 生产 者 复杂 ，、 有 以 下 两 个 原因 。 第 一 ,通过 指定 所 谓 的 消息 选择 器 (message selector) 可 
以 将 过 滤器 关联 到 消息 消费 者 ， 这 里 ， 消 息 选 择 器 是 一 个 谓词 ， 它 定义 在 消息 头 的 值 和 消息 的 
特性 部 分 〈 非 消息 体 ) 上 。 通 过 数据 库 查 询 语言 SQL 的 子 集 指定 特性 。 例 如 ， 这 可 以 用 于 上 述 
上 下 文敏 感 的 例子 中 ， 从 一 个 给 定 的 位 置 过 滤 消 息 。 第 二 ， 提 供 了 接收 消息 的 两 种 模式 : 程序 
使 用 一 个 receive 〈 接 收 ) 操作， 这 时 程序 会 被 阻塞 或 者 建立 一 个 消息 监听 者 (message liste- 
ner) 对 象 ， 该 对 象 提供 onMessage 方法 ， 每 当 识别 出 一 个 合适 的 消息 时 该 方法 将 被 调用 。 


一 个 简单 的 例子 ”为 了 说 明 JMS 的 使 用 ， 我 们 返回 到 6.2.3 节 的 例子 ， 即 火警 服务 ， 展 示 该 服务 


如 何在 JMS 中 实现 。 我 们 选中 了 基于 主题 的 发 布 -订阅 服务 ， 因 为 火警 服务 本 质 是 一 个 一 对 多 的 应 用 ， 
报警 针对 许多 顾客 应 用 产生 报警 消息 。 


火警 对 象 的 代码 如 图 6-17 所 示 。 它 比 等 价 的 JGroups 的 例子 更 为 复杂 ， 主 要 原因 是 其 需要 创建 连 


接 、 会 话 、 发 布 者 和 消息 ， 如 第 6 ~ 11 行 所 示 。 除 了 createTopicSession 的 参数 ， 这 些 都 相对 简单 ，cre- 
ateTopicSession 的 参数 表示 会 话 是 否 是 事务 的 (本 例 中 不 是 ) 以 及 指定 确认 消息 的 模式 。 (例子 中 是 
AUTO_ACKNOWLEDGE， 这 意味 着 会 话 会 自动 确认 它 收 到 了 一 个 消息 。) 在 分 布 式 环境 中 找到 相关 的 
连接 工厂 和 主题 将 增加 额外 的 复杂 性 。( 在 JGroups 中 ， 连 接 一 个 已 知 通 道 的 复杂 性 都 隐藏 在 connect 方 
法 中 。) 这 是 在 第 2 ~5 行 通过 JNDI( Java Naming and Directory Interface) 实现 的 。 为 了 代码 的 完整 性 将 
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其 包括 进来 ， 而 且 我 们 认为 读者 可 以 理解 这 些 代码 行 的 目的 ， 所 以 没有 做 进一步 的 解释 。 第 12 和 13 
行 包括 了 创建 一 个 新 消息 并 将 它 发 布 到 合适 的 主题 上 的 关键 代码 。 创 建 一 个 FireAlarmJMS 类 的 新 实例 
并 发 起 一 个 警报 的 代码 如 下 ， 


FireAlarmJMS alarm = new FireAlarmJMSO; 
alarm. raise(); 





import javax,jms.*; 
import javax.naming. *; 


public class FireAlarmJMS { 

public void raise) { 
try { 1 
Context ctx = new InitialContext(); 2 
TopicConnectionFactory topicFactory = 3 
(TopicConnectionFactory)ctx.lookup("TopicConnectionFactory"); 4 
Topic topic = (Topic)ctx.lookup("Alarms"); 5 
TopicConnection topicConn = 6 
topic Factory.createTapicConnection(); 7 
TopicSession topicSess = topicConn.createTopicSession(false, 8 
Session. AUTO_ACKNOWLEDGE); 9 
TopicPublisher topicPub = topicSess.createPublisher(topic); 10 
TextMessage msg = topicSess.createTextMessage(); 11 
msg.setText("Fire!"); 12 
topicPub.publish(msg); 13 
} catch (Exception e) { 14 
} 15 











图 6-17 Java 类 FireAlarmJMS 


接收 端 相应 的 代码 与 之 非常 类 似 ， 如 图 6-18 所 示 。 第 2 ~ 9 行 是 完全 相同 的 ， 分 别 创建 了 需要 的 
连接 和 会 话 。 然 而 ， 这 次 接着 〈 第 10 行 ) 创建 了 TopicSubscriber 类 型 的 对 象 ， 在 第 11 行 的 stat 方法 
启动 了 订阅 ， 这 使 得 消息 能 够 被 接收 。 第 12 行 的 阻塞 型 receive 等 待 到 达 的 消息 ， 第 13 行 以 字符 串 形 
式 返 回 该 消息 的 文本 内 容 。 消 费 者 以 如 下 方式 使 用 这 个 类 : 


FireAlarmConsumerJMS alarmCalil = new FireAlarmConsumerJMS(Q); 
String msg = alarmCall.await(); 
System.out.printin("Alarm received: "+msg); 








import javax jms. *; 





import javax.naming. *; 
public class FireAlarmConsumerJMS { 
public String await() { 
try { 1 
Context ctx = new InitialContext(); 2 
TopicConnectionFactory topicFactory = 3 
(TopicConnectionFactory)ctx.lookup("TopicConnectionFactory"); 4 
Topic topic = (Topic)ctx. lookup("Alarms"); 5 
TopicConnection topicConn = 6 
topic Factory.createTopicConnection(); 7 
TopicSession topicSess = topicConn.createTopicSession(false, 8 
Session. AUTO_ACKNOWLEDGE); 9 
TopicSubscriber topicSub = topicSess.createSubscriber(topic); 10 
topicSub.startQ); il 
TextMessage msg = (TextMessage) topicSub.receive(); 12 
return msg.getText(); 13 
} catch (Exception e) { 14 
return null; 15 
} 16 





图 6-18 Java 类 FireAlarmConsumerJMS 
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总 之 ， 这 个 实例 研究 说 明了 如 何 通过 一 个 中 间 件 解决 方案 〈 在 这 个 例子 中 是 JMS) 支持 发 布 - 订 
阅 和 消息 队列 ， 它 给 程序 员 提供 可 选择 的 间接 通信 方式 : 一 对 多 或 者 点 对 点 。 


6.5 共享 内 存 的 方式 


在 这 一 节 ， 我们 考察 男 一 种 间接 通信 范 型 ， 它 提供 了 共享 内 存 的 抽象 。 在 转向 元 组 空间 通信 (一 
种 允许 程序 员 从 一 个 共享 元 组 空间 读 、 写 元 组 的 方法 ) 之 前 ,我 们 简要 看 一 下 分 布 式 共享 内 存 技 术 ， 
从 理论 上 讲 ， 它 是 为 并 行 计算 开发 的 。 分 布 式 共享 内 存在 读 和 写字 节 级 别 操作 ， 而 元 组 空间 以 半 结 构 
化 数据 的 形式 提供 更 高 层 的 视角 。 此 外 ， 分 布 式 共享 内 存 可 以 通过 地 址 进行 访问 ， 而 元 组 空间 是 关联 
的 ， 它 提供 了 一 种 内 容 可 寻 址 的 内 存 形式 [Gelernter 1985]. 

本 书 第 4 版 第 18 章 深入 讲解 了 分 布 式 共享 内 存 ， 包 括 一 致 性 模型 和 几 个 实例 研究 。 在 本 书 的 网 站 
上 可 以 找到 那 章 [www. cdk5. net/ dsm |] 。 


6. 5. 1 ”分布 式 共享 内 存 


分 布 式 共 享 内 存 (DSM) 是 一 种 抽象 ， 用 于 给 不 共享 物理 内 存 的 计算 机 共享 数据 。 进 程 通过 读 和 
更 新 看 上 去 是 其 地 址 空间 中 普通 的 内 存 来 访问 DSM。 然 而 ， 底 层 的 运行 时 系统 透明 地 保证 运行 在 不 同 
的 计算 机 上 的 进程 可 以 观察 到 其 他 进程 的 更 新 。 就 好 像 进 程 在 访问 单个 共享 内 存 ， 但 是 事实 上 物理 内 
存 是 分 布 式 的 (参见 图 6-19) 。 


分 布 式 共享 内 存 
i TN 
ican we on OM DSM 看 上 去 像 进程 
访问 DSM 的 进程 i 映射 | SS 地 址 空间 中 的 内 存 
物理 内 存 物理 内 存 物理 内 存 


| | | 
图 6-19 分 布 式 共享 内 存 抽象 


DSM 的 要 点 是 DSM 节省 了 程序 员 在 写 应 用 程序 时 对 消息 传递 的 考虑 ， 否 则 的 话 ， 程 序 员 不 得 不 使 
用 消息 传递 。DSM 是 一 个 重要 工具 ， 用 于 并 行 应 用 、 任 何 分 布 式 应 用 或 者 一 组 应 用 (其 中 的 每 个 应 用 
都 能 直接 访问 单个 共享 数据 项 ) 。 总 体 上 来 说 ，DSM 不 太 适 合 客户 - 服务 器 系统 ， 那 里 ， 客 户 常常 视 
服务 器 所 持 有 的 资源 为 抽象 数据 ,通过 请 求 对 它们 进行 访问 (出 于 模块 化 和 安全 保护 的 原因 ) 。 

在 分 布 式 系统 中 消息 传递 不 能 被 全 部 避免 : 在 没有 物理 共享 内 存 时 ，DSM 运行 时 支持 通过 计算 机 
之 间 的 消息 传送 更 新 。DSM 系统 管理 复制 数据 : 为 了 加 快 访问 速度 ， 每 台 计算 机 都 有 存储 在 DSM 中 最 
近 访 问 过 的 数据 项 的 本 地 拷贝 。DSM 的 实现 问题 和 第 18 章 要 讨论 的 复制 问题 相关 ， 也 和 第 12 章 讨论 
的 缓存 共享 文件 相关 。 

”关于 DSM 实现 ， 一 个 著名 的 例子 是 Apollo Domain 文件 系统 [Leach et al. 1983]， 在 该 系统 中 ， 不 


“局 工作 站 拥有 的 进程 通过 将 文件 同时 映射 到 它们 的 地 址 空间 来 共享 文件 。 这 个 例子 表明 分 布 式 共享 内 
2 和 可 以 是 持久 的 。 也 就 是 说 ， 它 可 以 比 任何 访问 它 的 进程 或 者 进程 组 的 运行 更 持久 并 且 它 可 以 被 不 同 


进程 组 共享 。 

DSM 的 意义 伴随 着 共享 内 存 多 处 理 器 (将 在 7. 3 节 进 一 步 讨 论 ) 的 发 展 而 增加 。 许 多 研究 工作 已 
经 研究 了 适合 在 这 些 多 处 理 器 上 进行 并 行 计算 的 算法 。 在 硬件 体系 结构 层次 ， 开 发 工作 包括 缓存 策略 
以 及 快速 的 处 理 器 - 内 存 互 连 ， 目 标 是 在 实现 快速 内 存 访问 的 低 延迟 和 高 吞吐 量 时 ， 最 大 化 可 支持 的 
处 理 器 数目 [ Duboisc et al. 1998] 。 在 进程 通过 一 个 公共 总 线 连接 到 内 存 模块 的 地 方 ， 在 总 线 竞争 导致 
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性 能 急速 下 降 之 前 ， 实 际 的 极限 是 10 个 处 理 器 量 级 。 共 享 内 存 的 处 理 器 通常 以 4 个 为 一 组 进行 构造 ， 
它们 通过 单个 电路 板 上 的 总 线 共享 一 个 内 存 模块 。 可 以 用 这 样 的 电路 板 按 非 均 匀 内 存 访 问 ( Non- Uni- 
form Memory Access, NUMA) 体系 结构 构造 多 处 理 髓 (至 多 64 个 处 理 器 ) 。 这 是 一 个 层次 式 体系 结构 ， 
其 中 ， 四 处 理 器 的 电路 板 通过 使 用 高 性 能 的 交换 器 或 者 高 层次 的 总 线 相 连 。 在 NUMA 体系 结构 中 ， 处 
理 器 看 到 一 个 单一 的 地 址 空间 ， 其 中 包含 所 有 电路 板 上 的 所 有 内 存 。 但 是 板 上 内 存 的 访问 延迟 小 于 不 
同 板 上 的 内 存 模块 的 访问 延迟 一 一 这 种 体系 结构 因此 而 得 名 。 

在 分 布 式 内 存 多 处 理 器 〈distributed- memory multiprocessor) 和 现成 的 计算 组 件 集群 中 (参见 第 7.3 
节 ) ， 处 理 器 没有 共享 内 存 但 是 通过 一 个 非常 高 速 的 网 络 来 连接 。 这 些 系统 ， 像 通用 的 分 布 式 系统 一 
样 ， 可 以 扩展 到 比 共 享 内 存 多 处 理 器 的 64 个 左右 的 处 理 器 更 多 数量 的 处 理 器 。DSM 以 及 多 处 理 器 研究 
界 所 关注 的 核心 问题 是 ， 在 共享 内 存 算法 以 及 相关 软件 上 的 知识 投资 是 否 可 以 直接 被 转化 为 一 个 可 伸 
缩 性 更 强 的 分 布 式 内 存 体系 结构 。 

消息 传递 与 DSM 作为 一 种 通信 机 制 ，DSM 与 消息 传递 更 具有 可 比 性 ， 而 不 是 基于 请 求 -应答 的 
道 信 ， 因 为 DSM 在 并 行 处 理 方面 的 应 用 必须 使 用 异步 通信 。 在 编程 方面 ，DSM 和 消息 传递 方法 对 比 
如 下 : 

提供 的 服务 : 在 消息 传递 模式 下 ， 变 量 必须 在 一 个 进程 中 编码 ， 被 传递 后 在 接收 进程 中 解码 成 其 
他 变量 。 对 比 之 下 ,采用 共享 内 存 ， 相 关 进 程 直 接 共享 变量 ， 所 以 不 需要 编码 (其 至 不 需要 对 共享 变 
量 的 指针 编码 ) ， 这 样 就 不 需要 单独 的 通信 操作 。 大 多 数 实现 允许 存储 在 DSM 中 的 变量 可 以 像 普 通 的 
非 共享 变量 一 样 被 命名 和 被 访问 。 男 一 方面 ， 支 持 消息 传递 是 因为 它 允 许 进程 通信 ， 同 时 通过 拥有 各 
自私 有 地 址 空间 而 保护 彼此 ， 然 而 ， 共 享 DSM 的 进程 可 能 因为 诸如 错误 地 变更 数据 而 引起 其 他 进程 失 
效 。 更 进一步 ， 当 在 异 构 计算 机 之 间 使 用 消息 传递 时 ， 编 码 考虑 了 数据 表示 方法 的 不 同 ; 但 是 诸如 具 
有 不 同 的 整数 表示 的 计算 机 之 间 如 何 共享 内 存 ? 

在 消息 模型 中 ,通过 消息 传递 原 语 本 身 ， 使 用 第 16 章 中 讨论 的 锁 服务 器 实现 技术 、 可 以 实现 进程 
之 间 的 同步 。 而 在 DSM 中 ， 同 步 是 通过 共享 内 存 编程 的 常规 组 成 成 分 ,例如 锁 和 信号 量 实现 的 。( 尽 
管 在 分 布 式 内 存 环 境 中 ， 锁 和 信号 量 需要 不 同 的 实现 。) 第 7 章 在 线程 编程 中 简要 地 讨论 了 这 些 同 步 
对 象 。 

最 后 ， 因 为 DSM 可 以 持久 化 ， 通 过 DSM 通信 的 进程 可 能 在 非 重 合 的 生命 周期 上 执行 。 进 程 可 以 
在 一 个 协定 的 内 存 位 置 放置 数据 ， 以 便 其 他 进程 运行 时 查看 数据 。 相 比 之 下 ， 通 过 消息 传递 通信 的 进 
程 必须 在 同一 时 刻 执 行 消息 传递 。 

效率 : 实验 表明 为 DM 开发 的 某 个 并 行程 序 能 表现 得 和 在 相同 的 硬件 上 用 消息 传递 平台 编写 的 具 B6 
有 等 价 功能 的 程序 一 样 出 色 [ Carter et al. 1991 | 至 少 是 在 相对 少量 的 计算 上 0 台 左 右 ) 如 此 。 
然而 ， 这 个 结论 不 能 推广 。 基 于 DSM 的 程序 性 能 依赖 于 很 多 因素 ， 我 们 在 下 面 会 讨论 到 一 一 尤其 是 数 
据 共享 的 模式 (例如 一 个 数据 项 是 否 被 多 个 进程 更 新 ) 。 

与 两 种 编程 方式 相关 的 开销 的 可 见 性 是 不 同 的 。 在 消息 传递 中 ， 所 有 的 远程 数据 访问 是 显 式 的 ， 
因此 ,程序 员 总 是 知道 一 个 特定 操作 是 在 进行 还 是 涉及 了 通信 的 开销 。 然 而 ， 使 用 DSM， 任 何 特 定 的 
读 或 者 更 新 有 可 能 涉及 、 也 可 能 不 涉及 底层 运行 时 支持 提供 的 通信 。 其 涉及 与 否 取 决 于 下 面 这 些 因素 ， 
数据 以 前 是 否 被 访问 过 以 及 在 不 同 计算 机 上 进程 间 的 共享 模式 。 

DSM 是 否 比 消息 传递 更 适合 于 一 个 特定 应 用 ， 没 有 绝对 的 答案 。DSM 一 直 是 一 个 工具 ， 它 的 最 终 
状态 取决 于 其 被 实现 的 效率 。 


6.5.2 元 组 空间 通信 

元 组 空间 是 耶鲁 大 学 的 David Gelernter 作为 分 布 式 计算 的 一 种 新 形式 首次 引入 的 ， 它 基于 David 
Gelernter 提出 的 “生成 通信 ”[ Gelernter 1985]。 在 这 种 方法 中 ， 进 程 通过 在 元 组 空间 放置 元 组 间接 地 
进行 通信 ， 其 他 进程 可 以 从 该 元 组 空间 读 或 者 删除 元 组 。 元 组 没有 地 址 ， 但 是 可 以 通过 内 容 上 的 模式 
匹配 进行 访问 〈 内 容 可 寻 址 的 内 存 ， 相 关 讨论 见 Gelemter [1985 ] ) 。 所 形成 的 Linda 编程 模型 有 很 广 
泛 的 影响 力 ， 并 在 分 布 式 编程 方面 带 来 了 重大 的 发 展 ， 包 括 : Agora 系统 [ Bisiani and Forin 1988], XE 
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有 更 重要 的 ，Sun 的 JavaSpaces (下 面 将 要 讨论 ) 和 IBM 的 TSpaces。 元 组 空间 通信 在 无 处 不 在 计算 领 
域 也 很 有 影响 ， 原 因 将 在 第 19 章 深入 探讨 。 

本 节 研 究 元 组 空间 范 型 的 一 个 示例 ， 因 为 它 适 用 于 分 布 式 计 算 。 在 简要 考虑 相关 的 实现 问题 之 前 ， 
我 们 从 研究 元 组 空间 提供 的 编程 模型 开始 。 本 节 把 JavaSpaces 规约 作为 案例 研究 ， 说 明 元 组 空间 是 如 
何 发 展 从 而 包罗 面向 对 象 世 界 的 。 

编程 模型 ”在 元 组 空间 编程 模型 中 ， 进 程 通过 元 组 空间 (一 个 共享 的 元 组 集合 ) 进行 通信 。 而 元 组 
由 一 个 或 多 个 带 类 型 的 数据 域 组 成 ， 如 序列 < "fred", 1958 >, <"sid", 1964> 和 <4, 9.8, "Yes" >, 
元 组 类 型 的 任何 组 合 都 可 能 存在 于 相同 的 元 组 空间 中 。 进 程 通过 访问 同一 元 组 空间 实现 共享 数据 :它们 
使 用 write 操作 将 元 组 放置 在 元 组 空间 中 ,使 用 read 或 者 take 操作 从 元 组 空间 中 读 或 提取 元 组 。write 操 
作 加 入 一 个 元 组 ,但 不 影响 元 组 空间 中 已 存在 的 元 组 。read 操作 返回 一 个 元 组 的 值 ,并 不 影响 元 组 空间 
的 内 容 。take 操作 也 返回 一 个 元 组 ,但 在 这 种 情况 下 , 它 会 从 元 组 空间 中 删除 该 元 组 。 

当 从 元 组 空间 中 读 或 者 删除 元 组 时 ,一 个 进程 提供 了 一 个 元 组 规约 ,元 组 空间 返回 符合 该 规约 的 任 

265] ” 何 元 组 一 一 如 上 所 述 ,这 是 一 类 关联 寻 址 。 为 了 使 得 进程 能 够 同步 其 活动 ,read 和 take 操作 都 会 阻塞 , 直 
到 在 元 组 空间 中 找到 一 个 相 匹 配 的 元 组 。 一 个 元 组 规约 包括 域 的 数量 和 所 需 的 域 值 或 者 域 类 型 。 例 如 ， 
take( < String ,integer > ) 可 以 提取 <"fred" ，1958 > 或 者 < " sid" ，1964 >; take( < String,1958 > ) 只 能 
提取 到 两 者 中 的 < "fred" ，1958 > 。 

在 元 组 空间 范 型 中 ， 不 允许 直接 访问 元 组 空间 中 的 元 组 ， 进 程 必 须 替 换 元 组 空间 中 的 元 组 而 不 是 
修改 它 。 这 样 ， 元 组 是 保持 不 变 的 。 假 设 一 组 进程 在 元 组 空间 中 维护 一 个 共享 的 计数 器 。 当 前 计数 
(也 就 是 64) 是 在 元 组 < " counter" ，64 > 中 。 一 个 进程 为 了 增加 myTS 元 组 空间 的 计数 器 的 值 ， 必 须 执 
行 以 下 形式 的 代码 : 


<s, count> := myTS.take(<"counter", integer>); 
myTS.write(<"counter", count+1>); 


图 6-20 给 出 了 元 组 空间 范 型 的 进一步 示例 。 这 个 元 组 空间 包含 一 系列 元 组 ， 它 们 表示 组 成 大 不 列 
颠 联合 王国 的 国家 地 理 位 置信 息 ， 包 括 人 口 和 首都 。take 操作 take( < String,"Scotland" ，String > ) 将 下 
HE <" Capital" ," Scotland" ," Edinburgh" > ， 而 take( < String," Scotland", Integer > ) 将 匹配 <" Popula- 
tion" ," Scotland" , 5168000 >, write 操作 write( < "Population" ," Wales" , 2 900 000 > ) 将 在 元 组 空间 中 
插入 一 个 关于 Wales 人 口 信息 的 新 元 组 。 最 后 ， 如 果 read( <" Population", String, Integer > ) 这 个 操作 
在 相应 的 write 操作 之 后 执行 ,那么 它 可 以 匹配 关于 UK, Scotland 以 及 Wales 人 口 的 对 应 元 组 。 哪 一 个 
元 组 被 选中 是 不 确定 的 ， 由 元 组 空间 的 实现 决定 ， 这 里 的 read 操作 仍 将 元 组 继续 留 在 元 组 空间 。 


( take(<String, "Scotland", String>) — write(<"Population", "Wales", 2900000>) () 


<"Capital", "Scotland", "Edinburgh"> 








<"Capital", "Wales", "Cardiff'> 


<"Capital", "N. Ireland", "Belfast"> 
<"Capital", "England", "London"> 









<"Population”, "Scotland", 5168000> 





<"Population", "UK", 61000000> 


l read(<"Population", String, Integer>) take(<String, "Scotland", Integer>) () 


图 6-20 元 组 空间 抽象 
注意 ，write、read 和 take 在 Linda 中 被 称 为 out、rd 和 in; 整 本 书 使 用 前 面 的 更 具 描述 性 的 名 称 。 
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这 些 术 语 也 在 JavaSpaces 中 使 用 ， 具 体 讨论 见 下 面 的 实例 研究 。 
与 元 组 空间 相关 的 特性 : Gelernter[ 1985] 提出 了 一 些 有 趣 的 和 元 组 空间 通信 相关 的 特性 ， 重 点 强 
调 了 6.1 节 讨 论 的 空间 和 时 间 的 解 看 : 
e ZER: 放置 在 元 组 空间 中 的 元 组 可 能 源 自任 何 数量 的 发 送 者 进程 ， 也 可 能 会 被 传递 到 任何 
一 个 潜在 的 接收 者 。 这 种 特性 在 Linda 中 被 称 为 分 布 式 命名 〈distributed naming) 。 
。 RMS: 放置 在 元 组 空间 中 的 元 组 会 保留 在 元 组 空间 中 直到 被 删除 (可 能 是 无 限期 的 ) ， 因 
此 ， 发 送 者 和 接收 者 不 需要 在 时 间 上 重 香 。 
总 之 ， 这 些 特性 提供 了 一 种 在 空间 和 时 间 上 是 完全 分 布 的 方法 ， 还 通过 元 组 空间 提供 了 一 种 共享 
变量 的 分 布 式 共享 形式 。 
Gelernter [1985] 也 探讨 了 与 Linda 采用 的 相当 灵活 的 命名 风格 〈 称 为 自由 命名 ) 相关 的 一 系列 其 
他 特性 。 有 兴趣 的 读者 可 以 阅读 Gelernter 的 论文 以 获取 更 多 的 关于 这 方面 的 信息 。 
同 主题 的 相关 变种 : Linda 引 和 人 以 来 ， 已 经 提出 了 许多 对 原 有 模型 的 改进 。 
o 原 有 的 Linda 模型 提出 了 一 个 单一 、 全 局 的 元 组 空间 。 这 在 大 系统 中 并 不 是 最 佳 的 ， 因 为 这 将 
导致 意 想 不 到 的 元 组 混淆 的 危险 : 随 着 元 组 空间 中 元 组 数量 的 增加 ，read 或 者 take 操作 匹配 到 
元 组 的 机 会 会 无 意 中 增 加 。 尤 其 是 在 对 类 型 进行 匹配 时 ， 例 如 上 述 的 take( < String, integer > ) 。 
鉴于 此 ， 很 多 系统 提出 了 多 元 组 空间 (multiple tuple spaces) ， 包 括 了 动态 创建 元 组 空间 的 能 
力 ， 并 在 系统 中 引 人 了 作用 域 〈 参 见 下 面 的 JavaSpaces 实例 研究 ) 。 
© Linda 按 预期 被 实现 成 一 个 集中 式 的 实体 ， 但 是 后 续 的 系统 试验 了 元 组 空间 的 分 布 式 实现 〈 包 
括 提 供 更 多 的 容错 策略 ) 。 鉴 于 这 一 主题 在 本 书 中 的 重要 性 ， 后 续 的 小 节 将 集中 研究 这 一 问题 
的 实现 。 
。 研究 者 已 经 试验 过 修改 或 者 扩展 元 组 空间 提供 的 操作 ， 并 改变 底层 语义 。 一 个 相当 有 趣 的 方案 
是 通过 将 每 一 件 东 西 建 模 为 (无 序 ) 集合 来 统一 元 组 和 元 组 空间 的 概念 一 一 也 就 是 说 ， 元 组 
空间 是 元 组 的 集合 ， 元 组 是 值 的 集合 ， 这 里 的 值 现 在 可 能 也 包括 元 组 。 这 种 变 体 被 称 为 Bau- 
haus Linda[ Carriero et al. 1995 ] 。 
也 许 最 有 趣 的 是 ， 最 近 的 元 组 空间 实现 已 从 带 类 型 的 数据 项 元 组 转移 到 数据 对 象 ( 带 有 属 
性 ) ， 将 元 组 空间 转变 为 对 象 空间 。 在 颇具 影响 的 系统 JavaSpaces 中 ， 这 个 建议 被 采纳 ， 见 下 
面 的 详细 讨论 。 
实现 问题 ”许多 元 组 空间 的 实现 采用 了 集中 式 的 方案 ， 方 案 中 元 组 空间 资源 由 一 个 服务 器 管理 。 
这 种 方案 的 优势 是 简单 ， 但 是 这 种 解决 方案 显然 不 能 容错 也 不 能 伸缩 。 基 于 这 个 原因 ， 提 出 了 分 布 式 
解决 方案 。 
复制 ， 几 个 系统 提出 使 用 复制 来 克服 上 面 提出 的 问题 [ Bakken and Schlichting 1995, Bessani et 
al. 2008, Xu and Liskov 1989], 
Bakken 和 Schlichting[ 1995]. Bessani [2008] 提出 的 方案 采用 与 复制 类 似 的 方法 ， 被 称 为 状态 
机 方法 (复制 将 在 第 18 章 进一步 讨论 ) 。 该 方法 假设 元 组 空间 的 行为 像 状态 机 ， 维 护 状 态 或 者 改变 状 
态 以 响应 来 自 其 他 副本 或 者 环境 的 事件 。 为 了 保证 一 致 性 ， 副 本 : 1) 必须 从 相同 的 状态 开始 (一 个 
空 的 元 组 空间 ) ; 2) 必须 以 相同 的 顺序 执行 事件 ; 3) 对 每 个 事件 必须 做 出 确定 的 反应 。 关 键 的 第 二 
个 特性 可 以 通过 采用 全 序 组 播 算 法 来 保证 ， 相 关 讨 论 见 6.2.2 节 。 
Xu 和 Liskov [1989] 采用 了 一 个 不 同 的 方法 ， 它 通过 使 用 特定 的 元 组 空间 操作 语义 来 优化 复制 策 
略 。 在 这 种 方案 中 ， 更 新 是 在 当前 视图 (一 致 的 副本 集 ) 的 上 下 文中 执行 的 ， 而 且 元 组 基于 其 相关 的 
逻辑 名 称 (指定 为 在 元 组 中 的 第 一 个 域 ) 被 划分 到 不 同 的 元 组 集合 。 该 系统 由 一 系列 在 元 组 空间 上 热 
行 计算 的 工作 者 (组 件 ) 和 一 系列 元 组 空间 副本 组 成 。 一 个 给 定 的 物理 结 点 可 以 包含 任何 数量 的 工作 
者 、 副 本 或 者 两 者 都 有 ; 一 个 给 定 的 工作 者 因此 可 能 有 或 者 可 能 没有 本 地 副本 。 结 点 通过 通信 网 络 连 
接 ， 该 通信 网 络 可 能 丢失 、 复 制 或 者 延迟 消息 ， 也 可 能 会 乱 序 传 递 消息 。 网 络 也 可 能 发 生 分 区 。 
write 操作 通过 在 不 可 靠 的 通信 通道 上 向 视图 的 所 有 成 员 发 送 一 个 组 播 消息 来 实现 。 一 旦 收 到 消 
息 ,成 员 将 元 组 放置 到 他 们 的 副本 中 并 确认 收 到 。 重 复发 送 write 请 求 直到 收 到 所 有 确认 。 为 了 协议 的 
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正确 操作 ， 副 本 必须 检测 和 确认 重复 的 请 求 ， 但 对 重复 的 请 求 并 不 实施 相应 的 write 操作 。 

read 操作 由 发 向 所 有 的 副本 的 一 个 组 播 消息 组 成 。 每 个 副本 寻找 一 个 匹配 ， 并 将 匹配 到 的 结果 返 
回 到 请 求 站 点 。 返 回 的 第 一 个 元 组 作为 read 结果 被 传递 。 这 可 能 来 自 一 个 本 地 结 点 ， 但 是 考虑 到 许多 
工作 者 没有 本 地 副本 ， 所 以 这 并 没有 保证 。 

take 操作 更 为 复杂 ， 因 为 需要 在 选中 的 元 组 上 达成 一 致 ， 并 从 所 有 拷贝 中 删除 该 元 组 。 算 法 分 为 
两 个 阶段 执行 。 第 一 阶段 ， 元 组 规约 被 发 送 到 所 有 的 副本 ， 副 本 试图 获取 在 相关 的 元 组 集 上 的 锁 以 串 
行 化 副本 上 的 take FR (write 和 read 操作 不 受 锁 的 影响 ) ; 如 果 不 能 获得 锁 ， 那 么 take 请 求 被 拒绝 。 
每 个 成 功 获取 锁 的 副本 用 匹配 的 元 组 集合 进行 响应 。 重 复 执行 这 一 步 直 到 所 有 副本 都 接收 到 请 求 并 作 
出 了 响应 。 发 起 进程 可 以 从 所 有 应 答 的 交集 中 选择 一 个 元 组 ， 作 为 take 请 求 的 结果 将 其 返回 。 如 果 不 
能 获取 绝 大 多 数 锁 ， 副 本 要 释放 这 些 锁 并 重复 第 一 阶段 。 

第 二 阶段 ， 元 组 必须 从 所 有 副本 删除 。 其 实现 方式 是 通过 重复 发 组 播 到 视图 中 的 所 有 副本 ， 直 到 
收 到 所 有 的 删除 确认 。 和 write 请 求 一 样 ， 第 二 阶段 也 需要 副本 检测 重复 的 请 求 ， 副 本 只 需 发 送 确认 消 
息 ， 不 需要 实施 其 他 的 删除 操作 。( 否则 在 这 个 阶段 可 能 会 错误 地 油 除 多 个 元 组 。) 

图 6-21 总 结 了 每 个 操作 所 涉及 的 步骤 。 注 意 如 果 发 生 结 点 故障 或 者 网 络 分 区 ， 需 要 一 个 单独 的 算 
法 来 管理 视图 的 改变 〈 详 细 情 况 参 见 Xu 和 Liskov [1989] ) 。 
write ”1) 发 起 请 求 的 场地 给 视图 中 的 所 有 成 员 组 播 write 请 求 ; 


2) 接 到 该 请 求 后 ， 成 员 将 元 组 播 入 到 它们 的 副本 ， 并 确认 该 动作 ; 
3) 重复 第 1 步 ， 直 到 收 到 所 有 的 确认 。 


read ë D 发 起 请 求 的 场地 给 视图 中 的 所 有 成 员 组 播 read 请 求 ; 
2) 接 到 该 请 求 后 ， 一 个 成 员 将 一 个 匹配 的 元 组 返回 给 请 求 者 
D 请 求 者 返回 第 一 个 收 到 的 匹配 的 元 组 作为 操作 结果 (忽略 其 他 的 ); 
4) 重复 第 1 步 ， 直 到 收 到 至 少 一 个 响应 。 


take 第 1 阶段 : 选择 要 删除 的 元 组 
1) 发 起 请 求 的 场地 给 视图 的 所 有 成 员 组 播 take 请 求 ; 
2 接 到 该 请 求 后 ， 每 个 副本 请 求 相关 元 组 集合 上 的 锁 ， 如 果 不 能 获得 锁 ， 那 么 该 take 请 求 被 拒绝 ; 
D 所 有 接受 请 求 的 成 员 用 匹配 的 元 组 集合 响应 ; 
4) 重复 第 1 步 , 直到 所 有 场地 接受 请 求 并 用 它们 的 元 组 集合 响应 而 且 交 集 是 非 空 的 ; 
5) 选中 一 个 元 组 作为 操作 的 结果 (从 所 有 应 管 的 交集 中 随机 选择 ); 
6) 如 果 只 有 少量 成 员 接 受 了 请 求 ， 那么 这 些 场地 元 组 集合 被 请 求 释 放 它 们 的 锁 ， 然后 重复 第 1 阶段 。 
第 2 阶段 : 删除 选中 的 元 组 
1) 发 起 请 求 的 场地 给 视图 中 的 所 有 成 员 组 播 remove 请 求 , 并 在 请 求 中 引用 这 个 要 删除 的 元 组 ; 
| 2) 接 到 该 请 求 后 ， 成 员 从 它们 的 副本 中 删除 元 组 、 发 送 兢 认 、 并 释放 锁 ; 














3) 重复 第 1 步 ， 直 到 收 到 所 有 的 确认 。 





图 6-21 复制 和 元 组 空间 操作 [Xu and Liskov 1989 ] 


给 定 三 个 元 组 空间 操作 的 语义 ， 这 个 算法 被 设计 用 于 最 小 化 延迟 : 

read 操作 阻塞 直到 第 一 个 副本 响应 请 求 为 止 。 

take 操作 阻塞 直到 第 一 阶段 结束 ， 那 时 ， 对 要 删除 的 元 组 达成 一 致意 见 。 

write 操作 可 以 立即 返回 。 

然而 这 引入 了 不 受 欢迎 的 并 发 。 例 如 ， 一 个 read 操作 可 能 访问 一 个 已 经 在 take 操作 的 第 二 阶段 被 
删除 的 元 组 。 因 此 需要 增加 额外 的 并 发 控制 。 具 体 而 言 ，Xu 和 Liskov [1989] 引入 以 下 额外 的 限制 : 

© 每 个 工作 者 在 副本 上 的 操作 都 必须 按 其 被 工作 者 发 出 的 相同 顺序 执行 。 

© write 操作 不 能 在 任何 副本 上 执行 ， 直 到 之 前 的 所 有 由 相同 工作 者 发 起 的 take 操作 在 工作 者 视 

图 中 的 所 有 副本 上 都 完成。 

第 19 章 提供 了 进一步 使 用 副本 的 例子 ， 并 介绍 了 Limbo 方法 ， 它 通过 使 用 副本 在 移动 环境 中 提 
供 高 可 用 性 [Davies et al. 1998], 

其 他 方法 : 一 系列 其 他 方法 也 被 应 应 用 于 元 组 空间 抽象 的 实现 ， 包括 把 元 组 空间 划分 到 若干 结 点 以 
及 映射 到 对 等 的 覆盖 网 上 : 

。 纽约 大 学 开发 的 Linda 内 核 [Rowstron and Wood 1996] 采用 了 将 元 组 划分 到 可 用 的 元 组 空间 
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服务 器 〈Tuple Space Server, TSS) 上 的 方法 ， 如 图 6-22 所 示 。 元 组 没有 副本 ; 也 就 是 说 ， 
每 个 元 组 只 有 一 个 拷贝 。 这 样 做 的 动机 是 提高 元 组 空间 的 性 能 ， 尤 其 是 在 高 度 并 行 计算 中 。 
当 一 个 元 组 放置 到 一 个 元 组 空间 时 ， 需 要 使 用 散 列 算法 选择 一 个 要 使 用 的 元 组 空间 服务 器 。 
read 或 select 的 实现 稍微 复杂 一 些 ， 因 为 提供 的 元 组 规约 可 以 指定 相关 域 的 类 型 或 者 值 。 散 
列 算法 使 用 这 一 规约 产生 可 能 包含 匹配 元 组 的 服务 器 集合 ， 接 着 ， 必 须 使 用 线性 搜索 直到 找 
到 一 个 匹配 的 元 组 。 注 意 ， 一 个 给 定 的 元 组 只 有 单个 拷贝 ， 所 以 take 操作 的 实现 被 大 大 简 


化 了 。 
用 户 进程 用 户 进程 用 户 进程 
本 地 元 组 本 地 元 组 本 地 元 组 
空间 管理 器 空间 管理 器 空间 管理 器 


SERS 





— 本 地 元 组 Sh 
空间 管理 器 空间 管理 器 空间 管理 器 
用 户 进程 用 户 进程 用 户 进程 


图 6-22 York Linda 内 核 中 的 划分 


元 组 空间 的 一 些 实现 采用 了 对 等 方法 ， 由 所 有 结 点 合作 提供 元 组 空间 服务 。 考 虑 到 对 等 解决 方 
案 固 有 的 可 用 性 和 可 伸缩 性 ， 这 种 方法 极 具 吸引 力 。 对 等 实现 的 例子 包括 PeerSpaces [Busi et 
al. 2003], ， 它 是 使 用 JXTA 对 等 中 间 件 [jxta. dev. java. net], LIME 和 TOTA (后 两 个 系统 的 特 
性 见 第 19 章 ) 开发 的 。 

实例 研究 : JavaSpaces JavaSpaces 是 Sun 开发 的 空间 通信 工具 [java. sun. com X, java. sun. com 
VI], RII, Sun 提供 JavaSpaces 服务 的 规约 ， 第 三 方 开 发 者 免费 提供 JavaSpaces 的 实现 (值得 注 
意 的 实现 包括 GigaSpaces [ www. gigaspaces. com] 和 Blitz [ www. dancres. org ] ) 。 该 工具 非常 依赖 Jini 
(Sun 的 发 现 服 务 ， 进 一 步 讨 论 见 19.2. 1 节 ) ， 下 文 能 明显 看 出 这 点 。Jini 技术 入门 工具 包 也 包括 了 一 
个 JavaSpaces 的 实现 ， 称 为 Outrigger。 

JavaSpaces 技术 的 目标 是 : 

。 提供 一 个 简化 分 布 式 应 用 和 服务 设计 的 平台 

° 要 使 关联 美的 数量 和 大 小 简单 化 和 最 小 化 ， 而 且 ， 运行 占用 的 空间 要 小 ， 使 得 代码 可 以 在 资源 

有 限 的 设备 上 运行 《例如 智能 手机 ) ; 

© 使 得 规约 能 够 以 复制 方式 实现 〈 虽 然 在 实践 中 ， 大 多 数 实现 是 集中 式 的 ) 。 

JavaSpaces 编程 : JavaSpaces 允许 程序 员 创建 任意 数量 的 空间 实例 ， 这 里 ， 空 间 是 一 个 共享 的 、 持 
久 的 对 象 仓 库 〈 从 而 提供 上 面 介绍 过 的 对 象 空间 ) 。 更 具体 来 说 ， 一 个 JavaSpaces 项 被 称 为 一 个 条 目 
(entry): 是 包含 在 实现 了 net. jini. core. entry. Entry 的 类 中 的 一 组 对 象 。 注 意 ， 条 目 包 含 对 象 (而 不 是 
元 组 ) ， 所 以 这 有 可 能 将 任意 行为 与 条 目 关联 ， 这 大 大 增加 了 这 种 方法 的 表达 能 力 。 

图 6-23 总 结 了 JavaSpaces 上 定义 的 操作 (给 出 了 每 个 操作 的 完整 基调 ) ， 这 些 操作 的 描述 如 下 : 

。 一 个 进程 可 以 使 用 write 方法 将 一 个 条 目 放 置 到 一 个 JavaSpaces 实例 中 。 与 Jini 一 样 ， 一 个 条 目 
可 以 有 一 个 与 之 关联 的 租约 (参见 5. 4.3 节 ) ， 该 租约 是 授予 访问 相关 对 象 的 时 间 ， 可 以 是 永 
远 〈Lease. FOREVER) ， 也 可 以 是 一 个 以 毫秒 为 单位 指定 的 数值 。 过 了 租约 指定 的 这 一 段 时 
H, 条目 被 销毁 。write 操作 也 被 用 在 事务 上 下 文中 ， 下 文 有 相关 的 讨论 (null 值 表 明 这 不 是 一 
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个 事务 操作 ) write 操作 返回 一 个 Lease 值 ， 它 代表 那个 JavaSpace 授权 的 租 期 值 (这 可 能 少 于 
请 求 的 时 间 )。 

一 个 进程 可 以 通过 read BY take 操作 访问 在 JavaSpaces 中 的 条 目 ; read 返回 相 匹 配 条 目的 拷贝 ， 
take 从 JavaSpaces 中 删除 一 个 相 匹 配 的 条 目 〈( 如 同上 面 介 绍 的 通用 编程 模型 ) 。 匹 配 需 求 通过 
模板 (template) 指定 ， 模 板 是 条 目 类 型 的 。 模 板 中 的 个 别 域 可 以 设置 为 指定 的 值 ， 其 他 域 可 
以 不 指定 。 匹 配 被 定义 为 和 模板 属于 同一 类 的 一 个 条 目 〈 或 者 是 一 个 合法 的 子 类 ) ， 并 且 这 个 
条 目 能 准确 匹配 上 指定 的 值 集 。 正 如 write, read 和 take 也 可 以 在 指定 的 事务 上 下 文中 执行 
(下 文 有 相关 的 讨论 )。 这 两 个 操作 也 是 阻塞 型 的 ;最 后 一 个 参数 指定 了 超时 ， 其 值 代表 一 个 
特定 进程 或 线程 阻塞 的 最 长 时 间 ， 例 如 用 来 处 理 一 个 给 定 条 目的 进程 故障 的 最 长 阻塞 时 间 。 
readIfExists 和 takelfExists 操作 分 别 等 价 于 read 和 take， 如 果 相 匹配 的 条 目 存在 ， 这 些 操作 会 将 
其 返回 ; 否则 返回 null。 

notify 操作 使 用 (第 6.3 节 提 到 的 ) Jini 分 布 式 事件 通知 来 注册 对 某 一 特定 事件 感 兴趣 一 一 在 
这 种 情况 下 ， 感 兴趣 的 事件 是 与 一 个 给 定 模板 相 匹配 的 条 目的 到 达 。 注 册 由 一 个 租约 控制 ， 这 
里 租约 表示 该 注册 需要 在 JavaSpaces 中 存留 的 时 间 。 通 知 是 通过 一 个 指定 的 RemoteEventListener 
接口 传递 。 这 个 操作 也 可 以 在 指定 的 事务 上 下 文中 执行 。 

















操 作 效 OR 
Lease write (Entry e, Transaction txn, long lease > 在 特定 JavaSpace 中 放 入 一 条 目 
Entry read (Entry tmpl, Transaction txn, long timeout) 返回 与 指定 模板 匹配 的 条 目的 拷贝 
Entry readlfExists (Entry tmpl, Transaction txn, long timeout) 功能 如 上 ， 但 不 阻塞 
Entry take (Entry tmpl, Transaction ton, long timeout) 检索 〈 并 删除 ) 与 指定 模板 匹配 的 条 目 
Entry takelfExists (Entry tmpl, Transaction ixn, long timeout) 功能 如 上 ， 但 不 阻塞 
EventRegistration notify (Entry tmpl, Transaction txn, 如 果 与 一 个 指定 模板 匹配 的 元 组 写 入 了 
RemoteEventListener listen, long lease, 一 个 JavaSpace， 那 么 通知 一 个 进程 
MarshalledObject handback) 
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如 上 所 述 ，JavaSpaces 中 的 操作 可 以 发 生 在 事务 上 下 文中 ， 保 证 所 有 或 者 没有 任何 操作 被 执行 。 事 


务 是 分 布 式 实体 而 且 能 跨越 多 个 JavaSpaces 和 多 个 参与 的 进程 。 第 16 章 将 会 进行 事务 的 总 体 概 念 的 


讨论 。 
一 个 简单 的 例子 : 我 们 通过 一 个 例子 来 总 结对 JavaSpaces 的 研究 ， 这 个 例子 是 在 6.2.3 节 首 次 引 


和 人 的 智能 火警 的 例子 ,在 6. 4.3 节 已 经 回顾 过 这 个 例子 。 在 这 个 例子 中 ， 当 检测 到 一 个 火灾 事件 时 ， 
需要 向 所 有 接收 者 分 发 紧急 消息 。 


( 称 为 “AlarmSpace”) 的 访问 ， 我 们 假设 该 实例 已 经 创 public String alarmType; 

建 。JavaSpaces 的 大 多 数 实 现 为 此 提供 了 实用 函数 ， 为 简 public AlarmTupleJSQ { 

化 起 见 ， 我 们 在 代码 里 展示 的 是 使 用 GigaSpaces 提供 的 实 j 

用 类 SpaceAccessor 和 findSpace 方法 (为 了 方便 ， 这 个 类 public AlarmTupleJS(String alarmType) { 


的 拷贝 在 本 书 的 网 站 上 [ www. cdk5. net] EH). RA, } 


我 们 首先 定义 一 个 类 型 为 AlarmTupleJS 的 条 目 对 象 ， 如 图 6-24 所 示 。 这 相对 简单 而 且 表 明 要 创建 一 
个 带 有 域 alarmType 的 新 条 目 。 相 关 的 火警 代码 如 图 6-25 
所 示 。 报 警 的 第 一 步 是 获得 对 一 个 JavaSpaces 相应 的 实例 





import net jini.core.entry. *; 


public class AlarmTupieJS implements Entry { 


this.alarmType = alarmType; 





创建 一 个 条 目 作为 之 前 定义 的 AlarmTupleJS 的 实例 。 这 个 |? | 
条 目 只 有 一 个 域 ， 一 个 称 为 alarmType 的 字符 串 ， 该 字符 


BORE “Fire!” RE, EH write 方法 把 这 个 条 目 放 





图 6-24 Java 类 AlarmTupleJS 


置 到 JavaSpaces 中 ， 它 将 在 那 保留 一 个 小 时 。 上 述 代码 用 如 下 代码 调用 : 


FireAlarmJS alarm = new FireAlarmJSQ; 
alarm.raise(); 
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import net jini.space.JavaSpace; 
public class FireAlarmJS { 
public void raise { 
try { 
JavaSpace space = SpaceAccessor.findSpace("AlarmSpace"); 
AlarmTupleJS tuple = new AlarmTupleJS("Fire!"); 


space.write(tuple, null, 60*60*1000); 
catch (Exception e) { 
} 











图 6-25 Java 类 FireAlarmJS 


消费 者 端 相应 的 代码 如 图 6-26 所 示 。 消 费 者 以 同样 的 方式 获得 对 相应 JavaSpaces 的 访问 。 在 此 之 
后 ， 创 建 一 个 模板 ， 其 单个 域 被 设置 为 “Fire!”， 接 着 调用 相关 的 read 方法 。 注 意 ， 通 过 设置 域 为 
“Fire1”， 我 们 确保 只 有 这 种 类 型 的 条 目 并 且 是 这 个 值 的 条 目 被 返回 ( 域 为 空 将 使 得 类 型 为 AlarmTuple- 
JS 的 任何 条 目 都 是 一 个 合法 匹配 ) 。 在 消费 者 端 将 调用 如 下 代码 : 


FireAlarmConsumerJS alarmCall = new FireAlarmConsumerJSQ,; 
String msg = alarmCall. await(; 
System.outprintin("Alarm received: "+ msg); 





import net jini.space.JavaSpace; 
public class FireAlarmConsumerJS { 
public String await) { 
try { 


JavaSpace space = SpaceAccessor findSpace(); 

AlarmTupieJS template = new AlarmTupleJS("Fire!"); 

AlarmTupleJS recvd = (AlarmTupleJS) space.read(template, null, 
Long. MAX_VALUE); 

return recvd.alarmType; 


catch (Exception e) { 
return null; 
} 


} 
j 








L. 





图 6-26 Java 类 FireAlarmReceiverJs 
这 个 简单 的 例子 说 明了 使 用 JavaSpaces 写 多 方 参与 的 、 在 时 间 和 空间 上 解 耦 的 应 用 程序 是 很 容易 的 。 
6.6 小 结 


本 章 详细 考察 了 间接 通信 ， 作 为 对 第 5 章 远程 调用 范 型 学 习 的 补充 。 我 们 从 通过 中 介 进 行 通信 的 
角度 定义 了 间接 通信 ， 由 此 产生 消息 生产 者 和 消息 消费 者 的 解 耦 。 这 导致 了 一 些 有 趣 的 性 质 ， 尤 其 是 
在 处 理 改变 和 建立 容错 策略 方面 。 

本 章 我 们 考虑 了 五 种 间接 通信 方式 : 

e 组 通信 ; 

。 发 布 - 订 阅 系 统 ; 

。 消息 队列 ; 

。 分 布 式 共享 内 存 ; 

e 元 组 空间 。 

本 章 的 讨论 强调 了 所 有 通过 中 介 形 式 支持 间接 通信 的 共性 ， 这 里 的 中 介 包 括 组、 渠道 或 者 主题 、 
队列 、 共 享 内 存 或 者 元 组 空间 。 基 于 内 容 的 发 布 - 订阅 系统 通过 将 发 布 -订阅 系统 作为 一 个 整体 进行 
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通信 ， 通 过 订阅 有 效 定义 了 由 基于 内 容 的 路 由 管理 的 逻辑 渠道 。 

在 关注 共性 之 外 ， 考 虑 不 同方 法 之 间 的 主要 区 别 也 是 有 益 的 。 我 们 首先 重新 考虑 了 时 间 和 空间 的 
解 耦 的 层次 ， 在 6. 1 节 重 新 对 此 进行 了 讨论 。 这 章 考 虑 的 所 有 技术 展示 了 空间 解 耘 ， 这 是 因为 消息 被 
发 送 到 中 介 ， 而 不 是 任何 一 个 /多 个 特定 的 接收 者 。 时 间 解 耦 的 观点 更 加 微妙 ， 依 赖 于 范 型 中 持久 化 的 
水 平 。 消 息 队 列 、 分 布 式 共享 内 存 和 元 组 空间 都 具有 时 间 解 看 特性 。 其 他 的 范 型 也 可 能 有 此 特性 ， 但 
这 依赖 于 具体 实现 。 例 如 ， 在 组 通信 中 ， 在 某 些 实现 中 ， 接 收 者 可 以 在 任意 时 间 点 加 入 一 个 组 ， 并 使 
得 它 获得 最 新 的 消息 。( 这 是 在 JGroups 中 可 选 的 特性 ， 可 通过 构建 一 个 合适 的 协议 栈 来 选中 此 特性 。) 
许多 发 布 - 订阅 系统 不 支持 事件 的 持久 化 ， 因 此 也 不 是 时 间 解 耦 的 ， 但 也 存在 特例 。 例 如 ，JMS 是 发 
布 -订阅 和 消息 队列 的 集成 ， 它 可 以 支持 持久 化 的 事件 。 

前 三 项 技术 (组 、 发 布 -订阅 、 消 息 队 列 ) 提供 了 一 个 强调 通信 (通过 消息 和 事件 ) 的 编程 模 
型 ， 然 而 分 布 式 共享 内 存 和 元 组 空间 提供 了 一 个 基于 状态 的 抽象 。 这 是 一 个 基本 的 不 同 ， 并 在 可 伸缩 
性 方面 有 显著 的 影响 ; 在 一 般 情况 下 ， 基 于 通信 的 抽象 ， 在 适当 的 路 由 基础 设施 支持 下 ， 有 潜力 扩展 
为 一 个 超大 规模 的 系统 。( 虽然 这 不 适用 于 组 通信 ， 因 为 它 需 要 维护 组 成 员 ， 相 关 讨 论 见 6.2.2 节 。) 
与 此 相反 ， 基 于 状态 的 两 种 方法 在 伸缩 性 方面 有 限制 。 这 是 因为 需要 保持 共享 状态 的 一 致 视图 ， 例 如 ， 
在 共享 内 存 的 多 个 读者 和 写 者 之 间 。 元 组 的 不 可 变更 的 性 质 使 得 元 组 空间 的 情况 更 加 细微 。 问 题 的 关 
键 在 于 在 一 个 大 型 系统 中 破坏 性 的 读 操 作 ， 即 take 操作 的 实现 ; 一 个 有 趣 的 结果 是 : 没有 这 个 操作 ， 
元 组 空间 看 上 去 像 发 布 -订阅 系统 《并 因此 可 能 是 高 可 伸缩 的 ) 。 

上 述 的 大 多 数 系 统 也 提供 一 对 多 的 通信 方式 ， 也 就 是 说 ， 对 基于 通信 的 服务 来 说 ， 这 是 指 组 播 ， 
从 基于 状态 的 抽象 的 角度 ， 是 指 对 共享 值 的 全 局 访问 。 消 息 队 列 和 元 组 空间 是 个 例外 ， 消 息 队列 是 点 
对 点 的 (并 因此 在 商业 中 间 件 中 常常 与 发 布 - 订阅 系统 结合 起 来 ) ， 而 元 组 空间 可 以 是 一 对 多 或 者 点 
对 点 的 ， 分 别 依赖 于 接收 进程 是 否 使 用 read BY take 操作 。 

各 个 系统 在 设计 目的 上 也 有 差异 。 组 通信 主要 用 来 支持 可 靠 的 分 布 式 系统 ， 强 调 消息 传递 的 可 靠 
性 和 排序 ， 为 此 提供 算法 支持 。 有 趣 的 是 ,保证 可 靠 性 和 排序 的 算法 (尤其 是 后 者 ) 对 伸缩 性 有 很 大 
的 负面 影响 ， 这 与 维护 共享 状态 的 一 致 视图 有 类 似 的 原因 。 发 布 - 订阅 系统 在 很 大 程度 上 是 针对 信息 
分 发 (例如 ， 金 融 系 统 ) 和 企业 应 用 集成 的 。 最 后 ， 共 享 内 存 方 法 通常 应 用 于 并 行 和 分 布 式 处 理 ， 包 
括 网 格 社区 〈 尽 管 元 组 空间 已 经 有 效应 用 于 许多 应 用 领域 ) 。 由 于 发 布 -订阅 系统 和 元 组 空间 通信 对 
易 变 环境 的 支持 ， 它 们 可 以 应 用 于 移动 和 无 处 不 在 计算 领域 (相关 讨论 见 第 19 章 )。 

另外 一 个 与 五 种 模式 相关 的 关键 问题 是 基于 内 容 的 发 布 - 订阅 和 元 组 空间 都 提供 了 一 种 基于 内 容 
的 关联 寻 址 〈associative addressing) ， 人 允许 订阅 和 事件 或 模板 和 元 组 之 间 的 模式 匹配 。 而 其 他 的 方法 没 
有 提供 。 

图 6-27 总 结 了 上 述 讨 论 。 























组 发 布 -订阅 系统 消息 队列 DSM 元 组 空间 
SEAE È 是 是 是 是 
ARA 。 ”可 能 可 能 是 是 是 
服务 风格 。 ”基于 通信 的 。 ” 基于 通信 的 基于 通信 的 基于 状态 的 基于 状态 的 
通信 模式 。 ”一 对 多 一 对 多 一 对 一 一 对 多 一 对 一 或 
一 对 多 
主要 目的 。 ”可 靠 的 分 布 。 信息 分 发 或 EAI; 。 “信息 分 发 或 EAI; “并行 和 分 布 式 。 ”并行 和 分 布 式 
式 计算 移动 和 无 处 不 在 ”商业 事务 处 理 计算 HA, 移动 和 无 
系统 处 不 在 系统 
可 伸缩 性 有 限 的 可 能 可 能 有 限 的 有 限 的 
关联 性 无 仅 基于 内 容 的 发 ”无 无 有 
| 布 -订阅 








图 6-27 间接 通信 风格 的 总 结 
我 们 在 分 析 中 没有 考虑 关于 服务 质量 的 问题 。 许 多 消息 队列 系统 以 事务 形式 对 可 靠 性 提供 内 在 支持 。 
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然而 更 一 般 地 ， 服 务 质量 仍然 是 间接 通信 范 型 的 一 个 主要 挑战 。 事实 上 ， 它 们 本 质 上 的 空间 和 时 间 解 厢 使 人 
们 难以 对 系统 的 端 到 端 特性 例如 实时 行为 或 安全 性 ) 进行 推理 ， 因 此 这 是 一 个 需要 进一步 研究 的 重要 领域 。 


练习 


6.1 


6.2 


6.3 


6.4 


说 明 为 什么 间接 通信 适合 在 易 变 的 环境 。 这 些 在 多 大 程度 上 归结 于 时 间 解 而、 空间 解 看 或 者 两 者 的 
结合 ? (第 230 页 ) 
6.1 节 阐 明了 消息 传递 是 时 间 和 空间 耦合 的 ， 也 就 是 说 ， 消 息 被 指向 某 个 特定 实体 ， 而 且 在 消息 发 送 
时 接收 者 必须 存在 。 考 虑 下 面 这 个 情况 ， 消 息 被 指向 一 个 名 称 而 非 一 个 地 址 ， 而 这 个 名 称 通过 DNS 
解析 ， 这 样 的 系统 能 否 表现 出 相同 的 间接 水 平 ? (第 231 页 ，13.2.3 节 ) 
6. 1 节 提 到 了 空间 耦合 但 时 间 解 耦 的 系统 ， 即 消息 被 指向 给 定 的 接收 者 〈 一 个 或 多 个 ) ， 但 接收 者 可 
以 有 独立 于 发 送 者 的 生命 周期。 你 能 构建 拥有 这 样 特性 的 通信 范 型 吗 ? 例如 ， 电 子 邮 件 是 否 属于 这 种 
类 型 ? (第 231 页 ) 
作为 第 二 个 例子 ， 考 虑 被 称 为 排队 RPC 的 通信 范 型 ， 它 是 在 Rover 145] ABS [Joseph et al. 1997], 
Rover 是 一 个 工具 箱 ， 它 支持 移动 环境 中 的 分 布 式 系统 编程 ， 在 移动 环境 中 ， 通 信 的 参与 者 可 能 断 连 
一 段 时 间 。 系 统 提供 RPC 范 型 ， 因 此 调用 被 指向 一 个 给 定 的 服务 器 〈 明 显 是 空间 耦合 的 ) ， 但 调用 是 
通过 中 介 (发 送 端的 一 个 队列 ) 被 路 由 的 ， 并 被 维护 在 队列 中 ， 直 到 接收 者 可 用 。 这 在 多 大 程度 
上 是 时 间 解 看 的 ? 提示: 考虑 一 个 暂时 不 可 用 的 接收 者 在 某 时 间 点 是 否 存在 这 一 哲学 问题 。 

(第 231 页 ,第 19 章 ) 
如 果 通 信 范 型 是 异步 的 ， 那 么 它 是 否 是 时 间 解 耦 的 ? 用 适当 的 例子 解释 你 的 答案 。 (55232 页 ) 
请 提供 组 通信 和 服务 上 下 文中 消息 交换 的 例子 ， 用 于 说 明 因果 序 和 全 排序 之 间 的 区 别 。( 第 236 页 ) 
考虑 使 用 JGroups (6.2.3 47) 编写 的 FireAlam 的 例子 。 假 设 它 被 推广 以 支持 多 种 报警 类 型 ， 如 
火灾 、 洪 水 、 人 侵 等 。 从 可 靠 性 和 排序 而 言 ， 这 类 应 用 的 需求 是 什么 ? (第 230 H, 第 240 页 ) 
设计 一 个 通知 邮件 服务 ， 目 的 是 代表 多 个 订阅 者 存储 通知 ， 允 许 订阅 者 指定 他 们 需要 何 时 传递 通知 。 
阐述 并 不 是 时 刻 在 线 的 订阅 者 如 何 利用 你 所 描述 的 服务 。 服 务 在 订阅 者 传递 开启 时 如 何 处 理 订 阅 者 


AYE? (第 245 页 ) 
在 发 布 -订阅 系统 中 ， 解 释 如 何 使 用 一 个 组 通信 服务 来 实现 基于 渠道 的 方法 ? 为 什么 对 于 基于 内 容 方 
法 的 实现 来 说 这 并 不 是 一 个 很 好 的 策略 ? (第 245 页 ) 
以 图 6-11 中 基于 过 滤 的 路 由 算法 作为 起 点 ， 开 发 另 一 种 算法 ， 说 明 如 何 使 用 广告 能 对 产生 的 消息 流 
量 有 重大 的 优化 。 (第 251 页 ) 
逐步 解释 图 6-12 所 示 的 可 替换 的 基于 汇聚 的 路 由 算法 的 操作 。 (第 252 页 ) 


在 练习 6. 11 答案 的 基础 上 ， 讨 论 两 个 可 能 的 EN(e) 和 SN(s) 实现 。 为 什么 对 于 一 个 给 定 的 与 ; 相 
匹配 的 e，EN(e) 和 SN(s) 的 交集 必须 是 非 空 的 (交集 规则 )? 这 是 否 应 用 到 了 你 可 能 的 实现 中 ? 


(第 252 页 ) 
解释 消息 队列 内 在 的 松 耦 合 是 如 何 帮助 企业 应 用 集成 的 。 与 练习 6. 1 一样， 这 些 在 多 大 程度 上 归结 
于 时 间 解 耦 、 空 间 解 耦 或 者 两 者 的 结合 ? (第 254 页 ) 
考虑 用 IMS 编写 的 FireAlarm 程序 (6.4.3 节 ) 。 你 将 如 何 扩展 使 得 消费 者 只 接收 来 自 一 个 给 定位 置 
的 报警 ? (第 261 页 ) 
解释 在 哪些 方面 ，DSM 适合 或 者 不 适合 客户 - 服务 器 系统 。 (第 262 页 ) 
讨论 消息 传递 和 DSM， 哪 个 更 适合 容错 的 应 用 。 (第 262 页 ) 
假设 一 个 DSM 系统 以 平台 中 立 的 方式 在 没有 硬件 支持 的 中 间 件 内 实现 ， 你 将 如 何 处 理 异 构 计 算 机 上 
的 不 同 的 数据 表示 问题 ? 你 的 解决 方案 能 否 扩 展 到 指针 ? (第 262 页 ) 
如 何 使 用 元 组 空间 实现 等 价 的 远程 过 程 调用 功能 ? 按 这 种 方式 实现 的 远程 过 程 交 互 有 什么 优点 和 
BRA? (第 265 页 ) 
如 何 使 用 元 组 空间 实现 信号 量 ? (第 265 页 ) 


用 Xu 和 Liskov[ 1989] 算法 实现 一 个 可 复制 的 元 组 空间 。 解 释 该 算法 是 如 何 使 用 元 组 空间 操作 的 语 
义 去 优化 复制 策略 的 。 (第 269 页 ) 
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操作 系统 支持 


本 章 描述 在 分 布 式 系统 的 结 点 上 操作 系统 设施 是 如 何 支持 中 间 件 的 。 操 作 系 统 促进 了 服务 器 内 资 
源 的 封装 和 保护 ， 同 时 它 还 支持 用 于 访问 这 些 资源 的 机 制 ， 包 括 通信 和 调度 。 

本 章 的 一 个 重要 主题 是 系统 内 核 的 作用 。 本 章 的 目标 是 使 读者 了 解 在 保护 域 中 划分 功能 的 优点 和 
氧 点， 特别 是 划分 内 核 级 和 用 户 级 代码 的 功能 带 来 的 优点 和 缺点 。 本 章 还 将 讨论 内 核 级 设施 与 用 户 级 
设施 间 的 权衡 ， 其 中 包括 效率 和 健壮 性 之 间 的 关系 。 

本 章 还 将 探讨 多 线程 处 理 和 通信 设施 的 设计 和 实现 问题 ， 然 后 介绍 已 经 设计 实现 的 主要 的 内 核 结 
构 ， 查 看 在 操作 系统 体系 结构 中 虚拟 化 正在 扮演 的 重要 角色 。 


7.1 简介 


第 2 章 介绍 了 分 布 式 系统 中 的 主要 软件 层次 。 我 们 已 经 知道 ， 资 源 共 享 是 分 布 式 系统 的 一 个 重要 
方面 。 客 户 应 用 程序 所 调用 的 资源 经 常 在 另 一 结 点 上 或 至 少 在 另 一 进程 上 。 应 用 程序 (以 客户 的 形式 
出 现 ) 和 服务 (以 资源 管理 者 的 形式 出 现 ) 使 用 中 间 件 来 进行 交互 。 中 间 件 提供 了 分 布 式 系统 的 各 结 
点 中 对 象 或 进程 间 的 远程 通信 。 第 5 章 介绍 了 中 间 件 中 远程 调用 的 主要 类 型 ， 例 如 Java RMI 和 COR- 
BA, 第 6 章 介绍 了 另 一 种 间接 通信 方式 。 本 章 将 关注 没有 实时 保证 的 远程 通信 支持 。( 第 20 章 将 介绍 
实时 和 面向 数据 流 的 多 媒体 通信 的 支持 。) 

在 中 间 件 层 下 面 是 操作 系统 (09) 层 ， 它 是 本 章 的 主题 。 本 章 会 介绍 这 两 层 之 间 的 关系 ,特别 要 
介绍 操作 系统 是 如 何 满足 中 间 件 需求 的 。 这 些 需 求 包括 有 效 和 健壮 地 访问 物理 资源 以 及 实现 多 种 资源 
管理 策略 的 灵活 性 。 

任何 一 个 操作 系统 的 任务 都 是 提供 一 个 在 物理 层 〈 处 理 器 、 内 存 、 通 信 设 备 和 存储 介质 ) 之 上 的 
面向 问题 的 抽象 。 例 如 ， 一 个 操作 系统 如 UNK (REMEE, W Linux 和 Mac OSX) 或 Windows 
(及 其 各 个 版 本 ， 如 XP、Vista 和 Windows 7) 给 程序 员 提 供 的 是 文件 和 套 接 字 而 不 是 磁盘 块 和 原始 网 
络 访问 。 操 作 系 统 接管 单个 结 点 的 物理 资源 并 通过 系统 调用 接口 管理 它们 从 而 给 出 这 些 资源 抽象 。 

在 详细 描述 操作 系统 对 中 间 件 的 支持 之 前 ， 首 先 回 顾 一 下 在 分 布 式 系统 发 展 过 程 中 的 两 个 概念 : 
网 络 操作 系统 和 分 布 式 操作 系统 。 虽 然 有 不 同 的 定义 ， 但 它们 后 面 的 概念 却 类 似 如 下 所 述 。 

UNIX 和 Windows 都 是 网 络 操作 系统 的 例子 。 它 们 都 具有 内 置 的 连 网 功能 ， 因 此 可 以 用 来 访问 远程 
资源 。 它 们 能 网 络 透明 地 访问 一 些 类 型 的 资源 (但 不 是 所 有 资源 )。 例 如 ， 通 过 分 布 式 文件 系统 如 
NFS， 用 户 能 网 络 透明 地 访问 文件 。 也 就 是 说 ， 许 多 用 户 访问 的 文件 是 存储 在 远 端 的 服务 器 上 ， 而 这 
对 于 应 用 程序 很 大 程度 上 是 透明 的 。 

网 络 操作 系统 的 一 个 界定 性 特征 是 运行 网 络 操作 系统 的 结 点 能 独立 地 管理 自己 的 处 理 资源 。 换 名 
话说 ， 有 多 个 系统 映像 ， 每 个 结 点 一 个 。 通 过 网 络 操作 系统 ， 用 户 能 使 用 ssh 远程 登录 到 另 一 台 计算 
机 上 并 运行 那里 的 进程 。 然 而 ， 与 操作 系统 管理 自身 结 点 上 的 进程 不 同 ， 网 络 操作 系统 并 不 跨 结 点 管 
理 进程 。 

相反 ， 可 以 设想 存在 这 样 一 种 操作 系统 ， 用 户 不 必 关 心 程序 的 运行 地 点 或 资源 位 置 。 有 单一 的 系 
统 映 像 。 这 种 操作 系统 必须 能 够 控制 系统 中 所 有 的 结 点 ， 并 且 它 能 透明 地 将 新 的 进程 定位 在 符合 调度 
策略 的 结 点 上 。 例 如 ， 它 能 在 负载 最 小 的 结 点 上 生成 新 的 进程 以 防止 单个 结 点 过 载 。 

如 果 一 个 操作 系统 能 如 上 所 述 ， 在 分 布 式 系统 中 对 所 有 资源 只 生成 单一 的 系统 映像 ， 那 么 这 个 系 
统 就 是 一 个 分 布 式 操作 系 统 [Tanenbaum and van Renesse 1985] , 

中 间 件 和 网 络 操作 系统 ”事实 上 ， 除 了 UNIX, MacOS 和 Windows 这 些 网 络 操作 系统 外 ， 几 乎 没有 
普遍 应 用 的 分 布 式 操作 系统 。 可 能 有 两 个 主要 原因 造成 这 种 情况 ， 其 一 是 用 户 已 经 在 应 用 软件 方面 进 
行 了 大 量 的 投资 ， 已 有 软件 能 够 满足 他 们 当前 的 需要 ， 无 论 新 的 操作 系统 有 多 么 优越 的 特性 ， 如 果 它 
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不 能 运行 这 些 应 用 软件 ， 用 户 也 不 会 使 用 它 。 有 人 尝试 在 新 的 系统 核心 上 模拟 UNIX 和 其 他 操作 系统 
的 内 核 ， 但 模拟 的 性 能 不 能 令 人 满意 。 而 且 ， 在 主流 操作 系统 不 断 演 化 的 背景 下 ， 模 拟 所 有 的 主流 操 
作 系 统 本 身 就 是 一 项 繁重 的 工作 。 

第 二 个 反对 采用 分 布 式 操作 系统 的 原因 是 ， 即 使 在 一 个 小 单位 里 ， 用 户 也 更 愿意 独立 地 管理 自己 
的 机 器 。 其 中 一 个 重要 的 因素 是 性 能 [Douglis and Ousterhout 1991 ] 。 例 如 ， 当 Jones 写 一 个 文档 时 ， 她 
需要 很 好 的 交互 性 能 ， 而 如 果 系 统 由 于 运行 了 Smith 的 程序 而 使 交互 变 慢 ， 她 必定 会 不 高 兴 。 

中 间 件 和 网 络 操 作 系 统 的 结合 为 自治 性 需求 和 网 络 透明 的 资源 访问 之 间 提 供 了 一 个 可 接受 的 平衡 。 
网 络 操作 系统 使 用 户 能 运行 他 们 喜爱 的 字 处 理 程序 和 其 他 独立 运行 的 程序 。 中 间 件 使 他 们 能 享受 到 分 
布 式 系统 所 提供 的 服务 。 

下 一 节 将 解释 操作 系统 层 的 功能 。7. 3 节 查 看 资源 保护 的 低层 机 制 ， 以 便 我 们 能 理解 进程 和 线程 
之 间 的 关系 ， 以 及 内 核 的 作用 。7. 4 节 查 看 进程 、 地 址 空间 和 线程 抽象 ， 其 中 主要 介绍 并 发 、 本 地 资 
源 的 管理 、 保 护 和 调度 。7. 5 节 覆 盖 作 为 调用 机 制 一 部 分 的 通信 。7. 6 节 讨 论 不 同类 型 的 操作 系统 的 体 
系 结构 ， 其 中 包括 所 谓 的 整体 内 核 和 微 内 核 设 计 。 读 者 可 以 在 www. cdk5. net/oss 上 找到 有 关 Mach ARK 
以 及 Amoeba, Chorus 和 Clouds 操作 系统 的 实例 分 析 。 本 章 还 查看 了 操作 系统 设计 中 虚拟 化 扮演 的 角 
色 ， 给 出 了 Xen 实现 虚拟 化 的 实例 研究 ， 随 后 是 本 章 小 结 。 


7.2 操作 系统 层 


只 有 当中 间 件 和 操作 系统 的 联合 具有 良好 的 性 能 时 ， 用 户 才 会 满意 。 中 间 件 运行 在 一 个 分 布 式 系 
统 的 结 点 上 ， 而 且 是 多 种 0S - 硬件 组 合 〈 平 台 ) 上 。 运 行 在 一 个 结 点 上 的 操作 系统 都 有 其 内 核 和 相关 
的 用 户 级 服务 ， 如 通信 库 等 ， 这 些 操作 系统 能 为 处 理 、 存 储 和 通信 提供 本 地 硬件 资源 的 抽象 。 中 间 件 
将 这 些 本 地 资源 联合 起 来 以 实现 在 不 同 结 点 的 对 象 和 进程 之 间 提 供 远程 调用 的 机 制 。 

图 7-1 给 出 了 两 个 结 点 上 的 操作 系统 层 如 何 支持 一 个 公共 的 中 间 件 层 ， 从 而 为 应 用 和 服务 提供 一 
个 分 布 式 基础 设施 。 





应 用 程序 、 服 务 
中 间 件 
OS: 内 核 、 OSI OS2 
库 和 服务 器 | MERE. Bere. fa 进程 、 线 程 、 通 信 
Sen essre 平台 
计算 机 和 计算 机 和 
网 络 硬件 网 络 硬件 
结 点 1 结 点 2 
图 7-1 系统 层次 


本 章 的 目标 是 讨论 某 种 操作 系统 机 制 对 中 间 件 提供 共享 分 布 式 资源 能 力 的 影响 。 内 核 和 运行 于 其 
上 的 客户 和 服务 器 进程 是 我 们 所 关心 的 主要 的 体系 结构 组 件 。 内 核 和 服务 器 进程 用 于 管理 资源 和 为 客 
户 提供 资源 接口 。 因 此 ， 它 们 至 少 应 该 具备 以 下 特点 : 

HR: 它们 应 该 提供 有 用 的 能 够 访问 资源 的 服务 接口 ， 也 就 是 说 ， 它 所 提供 的 操作 集 必须 满足 客 
户 的 需要 。 像 内 存 管理 和 设备 管理 这 些 实现 资源 的 细节 应 该 对 客户 隐藏 。 

保护 : 资源 需要 被 保护 以 防止 非法 访问 。 例 如 ， 没 有 文件 读 权限 的 用 户 不 能 访问 文件 ， 而 且 应 用 
程序 进程 也 不 能 访问 设备 寄存 器 。 

并 发 处 理 : 客户 可 以 共享 资源 并 能 并 发 地 访问 它们 。 资 源 管理 器 负责 实现 并 发 透明 性 。 

客户 访问 资源 可 以 通过 远程 方法 调用 访问 一 个 服务 器 对 象 ， 或 者 通过 系统 调用 访问 内 核 。 我 们 将 
访问 一 个 已 封装 资源 的 手段 称 为 调用 机 制 ， 而 不 管 其 是 如 何 实现 的 。 库 、 内 核 和 服务 器 的 组 合 可 以 实 
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现 如 下 与 调用 相关 的 任务 : 

通信 : 资源 管理 器 接收 来 自 于 网 络 上 或 计算 机 内 部 的 操作 参数 并 返回 结果 。 

调度 ; 当 -一 个 操作 被 调用 时 ， 必 须 在 内 核 或 服务 器 上 调度 相应 处 理 。 

图 7-2 给 出 了 我 们 所 关心 的 核心 操作 系 ; 
ROG: 进程 和 线程 管理 、 内 存 管理 以 及 一 Mm 
台 计算 机 上 的 进程 间 的 通信 (图 上 水 平 的 分 
割 线 表示 依赖 关系 ) 。 内 核 提 供 其 中 的 大 部 


分 功能 ， 在 某 些 操作 系统 中 ， 内 核实 现 上 述 通信 管理 器 
全 部 功能 。 | 
在 可 能 的 情况 下 ， 操 作 系 统 软件 的 设计 
在 不 同 的 计算 机 体系 结构 间 是 可 移植 的 。 这 meee 内 存 管理 器 
就 意味 着 操作 系统 的 大 部 分 代码 是 用 C、 poe 


C++ 或 Modula-3 这 样 的 高 级 语言 编写 的 ， 而 


且 操 作 系统 设施 是 分 层 实现 的 ， 从 而 可 以 将 图 7-2 核心 操作 系统 功能 


依赖 于 机 器 的 组 件 减 少 到 一 个 最 小 的 层次 。 一 些 内 核 可 以 在 共享 内 存 的 多 处 理 器 上 执行 ， 下 面 将 对 其 
做 详细 的 介绍 。 


共享 内 存 多 处 理 器 ”共享 内 存 的 多 处 理 器 计算 机 具有 多 个 处 理 器 并 共享 一 个 或 多 个 内 存 模块 
(RAM) 。 处 理 器 也 可 以 有 自己 的 内 存 。 多 处 理 器 计算 机 有 多 种 构造 方式 [ Stone 1993] ， 最 简单 也 
是 最 便宜 的 方式 是 在 一 人 台 个 人 计算 机 的 主板 上 包含 若干 (2 ~8) 处 理 器 来 实现 多 处 理 器 系统 。 

在 常见 的 对 称 处 理 体系 结构 上 ， 每 个 处 理 器 都 执行 同样 的 内 核 ， 并 且 这 些 内 核 在 管理 硬件 资源 
时 都 扮演 同样 的 角色 。 这 些 内 核 共 享 关键 的 数据 结构 (例如 可 运行 线程 的 队列 )， 但 它们 也 拥有 一 
些 私有 的 数据 。 每 个 处 理 器 能 同时 执行 各 自 的 线程 ， 也 可 以 同时 访问 共享 内 存 中 的 私有 (SCRE 
保护 的 ) 数据 或 与 其 他 线程 共享 的 公有 数据 。 

许多 高 性 能 计算 任务 可 以 由 多 处 理 器 来 实现 。 在 分 布 式 系统 中 ， 因 为 多 处 理 器 的 服务 器 可 以 运 
行 一 个 具有 多 线程 的 程序 来 同时 处 理 多 个 客户 的 请 求 ， 故 它 特别 适合 于 高 性 能 服务 器 的 实现 ， 例 如 
提供 访问 共享 数据 库 的 服务 〈 见 7.4 节 )。 


核心 操作 系统 组 件 和 它们 的 责任 是 : 

进程 管理 器 : 负责 进程 的 创建 和 操作 。 进 程 包括 一 个 地 址 空间 以 及 一 个 或 多 个 线程 ， 是 资源 管理 
单元 。 

线程 管理 器 : 负责 线程 创建 、 同 步 和 调度 。 线 程 是 与 进程 相关 的 调度 活动 ， 将 在 7.4 节 详 细 
描述 。 : 
通信 管理 器 : 负责 同一 台 计 算 机 上 不 同 进程 中 的 线程 之 间 的 通信 。 一 些 内 核 也 支持 远程 进程 的 线 
程 之 间 的 通信 。 另 外 一 些 内 核 没 有 其 他 计算 机 这 个 概念 ， 它 们 需要 附加 的 服务 来 进行 外 部 通信 。7. 5 
节 将 讨论 通信 的 设计 。 

内 存 管理 器 : 负责 管理 物理 内 存 和 虚拟 内 存 。7.4 和 7. 5 节 将 描述 利用 内 存 管理 技术 来 实现 高 效 的 
数据 副本 和 数据 共享 。 

管理 器 : 负责 处 理 中 断 、 系 统 调用 陷阱 和 其 他 异常 ， 同 时 控制 内 存 管理 单元 和 硬件 缓存 以 及 处 理 
器 和 浮 点 寄存 器 操作 。 在 Windows 中 ， 这 被 称 为 硬件 抽象 层 。 读 者 可 以 在 Bacon[ 2002 ] 和 Tanenbaum 
[2007] 中 找到 内 核 中 依赖 计算 机 的 那 一 部 分 的 详细 描述 。 


7.3 保护 
上 文 曾经 提 到 需要 保护 资源 以 防止 非法 访问 。 然 而 ,对 系统 完整 性 的 威胁 不 仅仅 来 源 于 严 意 编制 
的 程序 代码 。 非 恶意 的 代码 也 有 可 能 因为 存在 某 些 错误 或 具有 未 曾 预 料 的 行为 而 导致 系统 工作 异常 。 
为 了 使 读者 了 解 什么 叫 对 资源 的 “非法 访问 ” ， 下 面 将 以 文件 为 例子 进行 讨论 。 为 方便 解释 ， 我 
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们 假设 对 打开 的 文件 只 有 两 种 操作 : read 和 write， 那 么 对 文件 的 保护 就 包括 两 个 子 问 题 。 首 先 ， 系 统 
需要 保证 客户 必须 有 相应 的 权限 才能 对 文件 执行 这 两 种 操作 。 例 如 ， 史 密斯 是 文件 的 拥有 者 ， 他 就 有 
对 文件 的 read 权限 和 write 权限 ， 而 琼斯 只 能 对 此 文件 执行 read 操作 。 当 琼斯 试图 对 文件 进行 write 操 
作 时 ， 这 便 是 一 个 非法 访问 。 完 全 解决 分 布 式 系统 的 资源 保护 子 问题 需要 运用 密码 技术 ， 我 们 把 这 个 
问题 推迟 到 第 11 章 。 

我 们 在 这 里 论述 的 是 另外 一 种 非法 访问 ， 即 客户 错误 地 执行 了 资源 不 能 提供 的 操作 。 例 如 ， 在 上 
面 的 例子 中 ， 当 史密斯 或 琼斯 试图 执行 一 个 既 不 是 read 也 不 是 write 的 操作 就 会 产生 这 种 非法 访问 。 假 
设 当 史密斯 设法 直接 访问 文件 指针 变量 时 ， 他 可 以 构造 一 个 setFilePointerRandomly 的 操作 ， 这 一 操作 
将 文件 指针 设置 为 一 个 随机 值 。 当 然 ， 这 是 一 个 没有 实际 意义 的 可 能 扰乱 文件 正常 使 用 的 操作 。 

我 们 应 该 能 保护 资源 来 防止 像 setFilePointerRandomly 这 样 的 非法 调用 。 一 种 方法 是 使 用 类 型 安全 
的 编程 语言 ， 例 如 在 Singularity 项 目 中 使 用 的 Sing# (C# 的 扩展 [Hunt et al. 2007]) 或 Modula3。 在 类 
型 安全 的 语言 中 ， 一 个 模块 只 能 访问 它 所 引用 的 目标 模块 ， 而 不 能 像 C 或 C++ 那样 通过 指针 来 访问 一 
个 模块 ， 并 且 它 只 能 用 其 对 目标 模块 的 引用 来 执行 由 目标 模块 的 编程 人 员 提 供 的 可 用 调用 (方法 调用 
或 过 程 调用 ) 。 换 句 话说， 它 不 能 随意 改变 目标 模块 的 变量 。 相 反 ，C++ 程序 员 可 以 把 指针 转换 成 任 
意 类 型 ， 从 而 执行 非 类 型 安全 的 调用 。 

我 们 也 能 用 硬件 支持 来 保护 模块 以 防止 其 他 模块 的 非法 调用 ， 而 不 用 考虑 调用 模块 是 用 什么 样 的 
语言 写成 的 。 如 果 要 在 通用 的 计算 机 上 实现 这 种 保护 机 制 ， 就 需要 有 相应 的 系统 内 核 支持 。 

内 核 和 保护 ”内 核 不 同 于 其 他 计算 机 程序 ， 它 的 特点 是 系统 初始 化 后 一 直 保 持 运行 并 且 对 其 主机 
的 物理 资源 有 完全 的 访问 权限 。 特 别 是 ， 它 可 以 控制 内 存 管理 单元 并 设置 处 理 器 的 寄存 器 ， 这 就 使 得 
没有 其 他 代码 能 访问 机 器 的 物理 资源 除了 以 内 核 允 许 的 方式 。 

大 多 数 处 理 器 都 有 硬件 模式 的 寄存 器 ， 它 们 的 设置 决定 了 特权 指令 能 否 被 执行 ， 例 如 有 些 指令 决 
定 内 存 管理 单元 当前 采用 哪 一 个 保护 表 。 内 核 进 程 在 处 理 器 的 管理 (特权 ) 模式 下 执行 ， 而 内 核 安排 
其 他 进程 在 用 户 ( 非 特权) 模式 下 运行 。 

内 核 也 通过 建立 地 址 空间 来 保护 自己 和 其 他 进程 以 防止 异常 进程 的 访问 ， 同 时 也 为 正常 进程 提供 
它们 所 需要 的 虚拟 内 存 。 一 个 地 址 空间 是 若干 虚拟 内 存 区 域 的 集合 ， 其 中 每 一 个 区 域 都 被 赋予 特定 的 
访问 权限 ， 例 如 只 读 或 读 写 权限 。 进 程 不 能 访问 自己 地 址 空间 以 外 的 内 存 空间 。 术 语 用 户 进程 或 用 户 
级 进程 表示 在 用 户 模式 下 执行 并 且 拥 有 用 户 级 地 址 空间 的 进程 (相对 于 内 核 ， 这 些 进 程 有 受 限 的 内 存 
访问 权限 ) 。 

当 一 个 进程 执行 应 用 程序 代码 时 ， 它 在 用 户 级 地 址 空间 中 执行 ; 而 当 这 一 进程 执行 内 核 代 码 
时 ， 它 在 内 核 地 址 空间 内 执行 。 通 过 中 断 和 系统 调用 陷阱 〈 一 种 由 内 核 管 理 的 资源 调用 机 制 ) ， 
这 一 进程 可 以 安全 地 从 用 户 级 地 址 空间 转换 到 内 核 地 址 空间 中 。 系 统 调 用 陷阱 由 一 个 机 器 级 的 
TRAP 指令 实现 ， 它 将 处 理 器 转换 为 管理 模式 并 将 地 址 空间 切换 到 内 核 地 址 空间 。 当 TRAP 指令 
(具有 某 种 异常 ) 执行 时 ， 计 算 机 硬件 强制 处 理 器 执行 内 核 提 供 的 处 理 函数 ， 以 保证 没有 其 他 进 
程 获得 对 硬件 的 控制 。 

保护 机 制 使 程序 执行 会 产生 额外 的 开销 。 在 地 址 空间 之 间 切 换 会 占用 处 理 器 的 许多 处 理 周 期 ， 并 
且 系 统 调用 陷阱 也 要 比 简单 的 过 程 调用 或 方法 调用 耗费 更 多 的 处 理 器 资源 。 我 们 将 会 在 7. 5. 1 节 看 到 
这 些 不 利 因素 是 如 何 影响 调用 开销 的 。 


7.4 进程 和 线程 

在 传统 的 操作 系统 概念 中 ， 进 程 只 能 执行 一 个 活动 。 到 20 世纪 80 年 代 ， 人 们 发 现 这 一 特性 不 能 
满足 分 布 式 系统 的 要 求 ， 也 不 能 胜任 那些 需要 内 部 并 发 的 复杂 的 单机 应 用 。 主 要 问题 ， 正 如 我 们 将 要 
展示 的 ， 是 传统 的 进程 实现 相关 活动 之 间 的 共享 是 很 困难 的 ， 而 且 代 价 也 很 大 。 

对 此 问题 的 解决 方法 是 完善 进程 的 概念 使 它 能 与 多 个 活动 联系 起 来 。 现 在 ， 一 个 进程 是 由 一 个 执 
行 环境 和 一 个 或 多 个 线程 组 成 的 。 一 个 线程 是 一 个 活动 的 操作 系统 抽象 (这 一 术语 来 源 于 术语 “执行 
线程 ” ) 。 执 行 环境 是 资源 管理 的 基本 单位 ， 它 是 一 个 进程 的 线程 所 能 访问 的 由 本 地 内 核 管理 的 资源 
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集 。 一 个 执行 环境 主要 包括 : 

。 一 个 地 址 空间 ; 

。 线程 同步 和 通信 资源 ， 如 信号 量 和 通信 接口 〈 例 如 套 接 字 ) ; 

。 高 级 资源 ， 如 打开 的 文件 和 窗口 。 

创建 和 管理 执行 环境 在 通常 情况 下 代价 很 高 ， 而 多 个 线程 可 以 共享 执行 环境 。 也 就 是 说 ， 它 们 可 
以 共享 执行 环境 中 的 所 有 可 用 资源 。 换 句 话 说， 一 个 执行 环境 代表 运行 于 其 中 的 线程 的 保护 域 。 

线程 可 以 动态 地 按 需 创建 和 销毁 。 多 线程 执行 的 主要 目的 是 尽 可 能 增加 操作 间 并 发 执行 程度 ,这样 
可 以 将 计算 和 输入 输出 同时 执行 ， 同 时 也 可 以 支持 在 多 处 理 器 上 的 并 发 执行 。 多 线程 执行 对 服务 器 端 运 
行 的 程序 特别 有 用 ， 因 为 处 理 多 个 并 发 的 客户 请 求 会 降低 服务 器 的 执行 速度 ， 使 其 成 为 瓶颈 。 例 如 ,一 
个 线程 可 以 处 理 一 个 客户 的 请 求 ， 而 同时 另 一 个 线程 可 以 为 另 一 个 客户 的 请 求 服务 ， 等 待 磁盘 访问 的 完成 。 

执行 环境 可 以 提供 保护 而 不 被 外 部 线程 访问 ， 这 样 执行 环境 内 的 数据 和 其 他 资源 在 默认 情况 下 是 
不 能 被 其 他 执行 环境 中 的 线程 访问 的 。 但 是 ， 某 些 内 核 允许 有 条 件 地 共享 资源 ， 例 如 同一 计算 机 上 不 
同 执行 环境 的 物理 内 存 。 

因为 许多 老式 的 操作 系统 在 一 个 进程 上 只 允许 运行 一 个 线程 ， 所 以 我 们 使 用 术语 多 线程 进程 来 强 
调 这 一 区 别 。 容 易 引 起 混淆 的 是 ， 在 一 些 编程 模型 和 操作 系统 设计 中 ， 术 语 “进程 ”实际 是 指 我 们 这 
里 所 说 的 线程 。 读 者 也 可 能 在 其 他 文献 中 遇 到 过 术语 重量 级 进程 ， 其 中 就 包含 了 它 的 执行 环境 ， 而 轻 
量 级 进程 则 不 包含 执行 环境 。 下 面 将 用 一 个 比喻 说 明 线 程 和 其 执行 环境 。 
一 





线程 和 进程 的 比 输 ”下 面 是 一 个 在 comp. os. mach USENET 组 上 由 Chris Lloyd 描述 的 关于 线程 
和 执行 环境 的 有 趣 比 喻 。 一 个 执行 环境 是 一 个 装 有 空气 和 食物 且 封 了 口 的 瓶子 。 开 始 ， 瓶 子 中 只 有 
一 个 苍蝇 一 一 一 个 线程 。 这 个 苍蝇 可 以 生出 其 他 苍蝇 ， 也 可 以 杀 死 它们 ; 它 的 后 代 也 能 这 样 做 。 苍 
蝇 会 消耗 瓶子 内 的 资源 〈 空 气 和 食物 ) 。 但 它们 必须 有 顺序 的 消耗 资源 。 如 果 它 们 不 遵守 这 一 原 
则 ， 它 们 会 在 瓶子 中 挤 在 一 起 。 也 就 是 说 ， 当 它们 以 一 种 没有 约束 的 方式 试图 消耗 同一 资源 时 会 产 
生 溃 突 ， 从 而 产生 无 法 预料 的 结果 。 苍 蝇 能 (通过 发 送 消息 ) 与 其 他 瓶子 中 的 苍蝇 通信 ， 但 是 它 
们 都 不 能 飞 出 瓶子 ， 外 面 的 苍蝇 也 不 能 飞 进来 。 按 这 种 观点 ， 最 初 ， 一 个 标准 的 UNIX 进程 是 一 个 
| 瓶子 ， 且 瓶子 中 只 有 一 只 不 育 的 苍蝇 。 











7.4.1 地 址 空间 


前 面 已 经 介绍 过 ， 地 址 空间 是 管理 一 个 进程 虚拟 内 存 的 单元 。 它 可 以 很 大 《通常 可 达到 2? 字 节 ， 
有 时 可 达到 2* 字 节 ) ， 由 一 个 或 多 个 区 域 组 成 ， 这 些 区 域 被 不 可 访问 的 虚拟 内 
存 区 隔 开 。 一 个 区 域 ( 见 图 7-3) 是 一 个 可 以 被 本 进程 的 线程 访问 的 连续 的 虚拟 
内 存 区 。 区 域 间 不 能 重 登 。 我 们 要 注意 区 分 区 域 和 它们 的 内 容 。 每 一 个 区 域 包 
括 如 下 性 质 : 

。 范围 (最 低 的 虚拟 内 存 地 址 和 区 域 大 小 ); 

。 对 本 进程 的 线程 的 读 / 写 /执行 权限 ; 

。 是 否 能 够 向 上 或 向 下 扩展 。 

注意 ， 这 个 模型 是 基于 页 面 的 而 不 是 基于 段 的 。 与 段 不 同 的 是 ， 当 区 域 扩 
展 时 ， 它 们 最 终 会 重 得 。 区 域 之 间 留 有 空隙， 用 于 区 域 增长 。 可 以 将 UNIX 地 址 
空间 概括 为 由 若干 不 相交 区 域 组 成 的 地 址 空间 ， 它 包含 3 个 区 域 : 一 个 轿 定 的 、 
包含 程序 代码 的 不 可 更 改 的 正文 区 域 ， 一 个 堆 ， 其 中 一 部 分 可 以 由 存储 在 程序 o 
的 二 进 制 文件 中 的 值 初始 化 ， 并 且 这 个 区 域 可 以 向 更 高 的 虚拟 地 址 空间 扩展 ;图 7 3 地 址 空间 
一 个 栈 ， 它 能 向 更 低 的 虚拟 地 址 空间 扩展 。 

有 几 个 因素 影响 了 应 提供 的 区 域 数 目 。 其 中 之 一 是 系统 需要 为 每 一 个 线程 握 供 一 个 独立 的 栈 。 通 
过 给 每 一 个 线程 分 配 一 个 区 域 ， 系 统 就 能 检测 术 的 溢出 并 控制 栈 的 增长 。 试 图 访问 在 这 些 酚 之 外 的 没 
有 被 分 配 的 虚拟 内 存 将 会 引起 异常 (ARM) 。 另 一 种 方法 是 为 线程 在 堆 上 分 配 栈 ， 但 是 这 样 会 使 系 


Qn 
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统 难于 检测 何 时 一 个 线程 超出 了 它 的 栈 界限 。 

另 一 个 因素 是 它 能 将 所 有 的 文件 一 一 而 不 仅仅 是 二 进 制 文件 的 正文 和 数据 区 一 一 映射 到 地 址 空间 。 
映射 文件 (mapped file) 是 一 个 内 存 中 的 文件 ， 它 像 字 节 数组 一 样 可 被 访问 。 虚 拟 内 存 系统 确保 对 内 
存 的 访问 可 以 反映 到 底层 的 文件 存储 上 。18. 6 节 (www. cdk5. net/oss/mach) 描述 了 Mach 内 核 是 如 何 
扩展 虚拟 内 存 的 ， 以 便 使 区 域 对 应 到 任意 的 “内 存 对 象 ”而 不 仅仅 是 对 应 到 文件 。 

在 进程 之 间或 在 进程 与 内 核 之 间 共 享 内 存 的 需求 是 在 地 址 空间 中 产生 额外 区 域 的 另 一 个 原因 。 闪 
享 内 存 区 域 (或 简称 为 共享 区 域 ) 是 同一 片 物理 内 存 区 域 ， 并 可 以 作为 其 他 地 址 空间 的 一 个 或 多 个 区 
域 。 因 此 ， 进 程 可 以 访问 共享 区 域 中 相同 的 内 存 内 容 ， 而 它们 的 非 共享 区 域 仍然 是 受到 保护 的 。 共 享 
区 域 的 应 用 包括 如 下 几 个 方面 : 

库 : 库 的 代码 可 以 很 大 ， 因 此 如 果 每 一 个 使 用 它 的 进程 都 需要 独立 地 装载 这 个 库 ， 那 么 就 会 占用 
相当 大 的 内 存 。 相 反 ， 可 以 将 库 代 码 的 一 个 拷贝 映射 到 需要 它 的 多 个 进程 的 共享 内 存 区 中 ， 以 达到 共 
享 的 目的 。 

AR: 内 核 代 码 和 数据 经 常会 被 映射 到 每 一 个 地 址 空间 中 的 相同 位 置 。 这 样 ， 当 进程 进行 系统 调 
用 或 出 现 异常 时 ， 系 统 不 需要 切换 到 新 的 地 址 映射 集合 。 

数据 共享 和 通信 : 两 个 进程 之 间或 进程 和 内 核 之 间 可 能 需要 共享 数据 以 达到 协同 工作 的 目的 。 将 
共享 数据 映射 到 相应 的 两 个 地 址 空间 中 的 特定 区 域 比 将 共享 数据 放 在 消息 中 传递 的 效率 更 高 。7. 5 节 
将 介绍 如 何 将 区 域 共享 用 于 通信 。 


7.4.2 新 进程 的 生成 


一 般 而 言 ， 新 进程 的 创建 是 由 操作 系统 提供 的 一 个 不 可 分 割 的 操作 。 例 如 ，UNIKX 的 fork 系统 调用 
创建 一 个 新 的 进程 ， 它 的 执行 环境 是 从 其 调用 进程 拷贝 得 来 的 《除了 fork 的 返回 值 ) UNIX 的 exec 系 
统 调用 将 调用 进程 转换 为 执行 一 个 指定 名 字 的 程序 的 代码 的 进程 。 

在 分 布 式 系统 中 ,设计 进程 创建 机 制 时 必须 考虑 到 多 个 计算 机 的 使 用 。 因 此 ， 支 持 进程 的 基础 设 
施 被 划分 为 几 个 独立 的 系统 服务 。 

在 分 布 式 系统 中 ， 新 进程 的 创建 过 程 可 以 被 划分 为 两 个 独立 的 方面 : 

。 选择 目标 主机 ， 例 如 ， 系 统 可 以 在 作为 服务 器 的 计算 机 集群 中 选择 一 个 结 点 作为 进程 的 主机 ， 

BA 1 章 所 介绍 的 那样 ) ; | 

© 创建 执行 环境 (和 一 个 初始 线程 ) 。 

进程 主机 的 选择 ”选择 新 进程 驻 留 的 结 点 ( 即 进程 分 配 决定 )， 是 一 个 策略 问题 。 通 常 ， 进 程 分 
配 策略 包括 从 总 是 在 产生 进程 的 主机 上 运行 新 进程 到 在 多 个 计算 机 上 共同 分 担 处 理 负载 等 一 系列 策略 。 
Eager A. [1986] 区 分 了 负载 共享 的 两 类 策略 。 

转移 策略 决定 是 使 新 进程 在 本 机 运行 还 是 在 其 他 机 器 上 运行 ， 而 这 取决 于 本 机 结 点 的 负载 是 轻 还 
是 重 。 

定位 策略 决定 选择 哪 一 个 结 点 来 驻 留 被 转移 的 新 进程 ， 这 取决 于 结 点 的 相对 负载 情况 、 机 器 的 体 
系 结构 和 它 是 否 拥 有 某 些 特殊 资源 。V 系统 [Cheriton 1984] 和 Sprite 系统 [ Douglis and Ousterhout 
1991] 都 为 用 户 提供 了 相应 的 命令 ， 可 以 在 操作 系统 选择 的 当前 空闲 的 工作 站 (在 某 一 给 定时 刻 ， 通 
常会 有 很 多 这 样 的 机 器 ) 上 执行 一 个 程序 。 在 Amoeba 系统 [Tanenbaum et al. 1990] 中 ， 运行 服务 器 
(run server) 从 一 个 共享 处 理 器 池 中 为 每 个 进程 选择 一 个 处 理 器 作为 主机 。 在 所 有 的 情况 下 ， 如 何 选择 
目标 主机 对 程序 员 和 用 户 来 说 都 是 透明 的 。 然 而 ， 对 那些 并 行程 序 或 容错 程序 编程 可 能 需要 指定 进程 
位 置 的 手段 。 

进程 定位 策略 可 以 是 静态 的 或 适应 性 的 。 前 者 不 考虑 系统 的 当前 状态 ， 尽 管 它们 蚌 根 据 系统 的 长 
期 特点 设计 的 。 它 们 是 基于 数学 分 析 的 ， 其 目的 是 优化 像 处 理 器 吞吐 量 这 样 的 系统 参数 。 它 们 可 能 是 
确定 性 的 《“ 结 点 A 总 是 将 进程 转移 给 结 点 B” ) ， 也 可 能 是 非 确定 性 的 〈(“ 结 点 A 应 该 将 进程 随机 转 
移 给 结 点 B ~ 也 之 间 的 任何 结 点 ") 。 另 一 方面 ， 适 应 性 策略 根据 不 确定 的 运行 时 因素 〈 例 如 ， 每 个 结 
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点 的 负载 ) 采取 启发 式 方法 来 做 出 进程 分 配 决定 。 

负载 共享 系统 可 能 是 集中 式 的 、 层 次 化 的 或 分 散 化 的 。 在 第 一 种 情况 中 ， 有 一 个 负载 管理 器 组 件 ， 
而 在 第 二 种 情况 中 ， 有 多 个 这 样 的 组 件 并 组 织 成 树 形 结构 。 负 载 管理 器 负责 收集 结 点 的 信息 并 根据 这 
些 信息 将 新 进程 分 配 到 结 点 上 。 在 层次 化 系统 中 ， 负 载 管理 器 尽 可 能 将 分 配 进程 的 决定 权 交 给 它 的 树 
形 结构 中 的 底层 结 点 上 ， 但 是 管理 器 在 某 些 负载 条 件 下 也 可 以 通过 与 其 他 管理 器 的 公共 祖先 结 点 将 进 
程 转移 到 其 他 结 点 上 。 在 分 散 化 的 负载 共享 系统 中 ， 结 点 之 间 为 制定 进程 分 配 决 策 可 直接 交换 信息 。 
例如 ，Spawn 系统 [ Waldspurger et al. 1992] 将 结 点 看 做 计算 资源 的 “购买 者 ”和 “销售 者 "， 并 用 
(分 散 化 的 ) “市 场 经 济 ” 来 管理 它们 。 

在 发 送 方 启动 的 负载 共享 算法 中 ， 需 要 创建 一 个 新 进程 的 结 点 负责 启动 转移 决策 。 如 果 它 的 负载 
超过 了 某 一 阐 值 ， 它 就 会 启动 一 个 转移 过 程 。 相 反 ， 在 接收 方 启动 的 算法 中 ， 结 点 在 自己 的 负载 低 于 
某 一 阐 值 时 向 其 他 结 点 广告 这 一 信息 ， 以 便 相对 重负 载 的 结 点 将 工作 转移 给 自己 。 

可 迁移 的 负载 共享 系统 可 以 在 任 一 时 间 转 移 负 载 ， 而 不 仅 限于 在 创建 一 个 新 进程 时 转移 负载 。 它 
们 使 用 一 种 称 为 “进程 迁移 (process migration) ”的 机 制 ， 将 一 个 正在 执行 的 进程 从 一 个 结 点 转移 到 
另 一 个 结 点 。Milojicic 等 人 [1999] 通过 一 系列 论文 详细 描述 了 进程 迁移 和 其 他 类 型 的 移动 。 尽 管 现 
在 已 经 构建 出 一 些 进 程 迁移 机 制 ， 但 它们 并 没有 得 到 广泛 应 用 ， 其 中 一 个 主要 的 原因 是 它们 的 代价 高 
昂 ， 而 且 为 了 将 进程 转移 到 其 他 的 结 点 上 ， 系 统 需 要 从 内 核 中 提取 出 进程 运行 的 当前 状态 ， 而 实现 这 
种 操作 是 相当 困难 的 。 

Eager 等 人 [1986] 考察 了 负载 共享 的 三 种 方法 ， 从 而 总 结 出 ; 在 任何 负载 共享 机 制 中 ， 简 单 性 是 
一 个 很 重要 的 性 质 。 这 是 因为 高 额 的 开销 (例如 状态 收集 开销 ) 可 能 会 抵消 复杂 机 制 带 来 的 好 处 。 

创建 新 的 执行 环境 一 旦 选 定 了 主机 ， 新 进程 需要 一 个 包含 地 址 空间 和 初始 化 信息 (可 能 还 包含 
其 他 资源 ， 如 默认 打开 的 文件 ) 的 执行 环境 。 

有 两 种 方法 可 以 为 新 创建 的 进程 定义 和 初始 化 地 址 空间 。 当 地 址 空间 是 一 个 静态 定义 的 格式 时 采 
用 第 一 种 方法 。 例 如 ， 地 址 空间 可 能 只 包含 一 个 程序 正文 区 域 、 一 个 堆 区 域 和 一 个 栈 区 域 。 在 这 种 情 
况 下 ， 地 址 空间 区 域 可 根据 指定 了 地 址 空间 区 域 范围 的 列表 来 创建 ， 然 后 地 址 空间 区 域 由 一 个 可 执行 
文件 进行 初始 化 或 者 用 零 填 满 。 > 

第 二 种 方法 是 根据 一 个 已 存在 的 执行 环境 来 定义 地 址 空间 。 例 如 ， 在 UNIX fork 操作 的 语义 中 ， 新 
创建 的 子 进 程 共享 其 父 进程 的 正文 区 域 ， 同 时 ， 它 的 堆 和 栈 区 域 在 大 小 上 〈 以 及 初始 内 容 ) 是 父 进程 
的 拷贝 。 这 个 机 制 可 以 加 以 推广 使 子 进程 继承 (或 忽略 ) 父 进 程 的 每 一 个 区 域 ， 被 继承 的 区 域 可 以 共 
享 父 进程 的 区 域 ， 也 可 以 逻辑 地 拷贝 父 进程 的 区 域 。 当 父 进程 和 子 进程 共享 一 个 区 域 时 ， 属 于 父 进程 
区 域 的 页 面 帧 〈 对 应 于 虚拟 内 存 页 面 的 物理 内 存单 元 ) 同时 被 映射 到 相应 的 子 进程 区 域 中 。 

例如 ，Mach[ Accetta et al. 1986] 和 Chorus[ Rozier et al. 1988, 1990] 在 从 父 进程 拷贝 一 个 继承 的 区 
域 时 ， 采 用 了 一 种 称 为 写 时 拷贝 (copy-on-write) 的 优化 机 制 。 默 认 情况 下 ， 区 域 被 拷贝 ， 但 是 没有 进 
行 物理 拷贝 。 组 成 继承 区 域 的 页 面 帧 被 两 个 地 址 空间 共享 。 只 有 当 其 中 的 一 个 进程 试图 修改 区 域 的 页 
面 内 容 时 ， 系 统 才 进行 物理 上 的 页 面 拷贝 。 

写 时 拷贝 是 一 种 通用 的 技术 ,例如 ， 它 也 用 于 拷贝 大 量 消 息 。 下 面 将 介绍 它 的 操作 机 制 。 在 图 7-4 
H, HEE A 和 进程 B 分 别 拥有 内 存 区 RA 和 RB， 这 两 个 区 域 是 用 写 时 拷贝 机 制 共享 的 。 更 明确 地 说 ， 
进程 A 允许 它 的 孩子 即 进程 B 继承 拷贝 区 域 KA， 从 而 在 进程 B 中 区 域 RB 被 创建 。 

为 简单 起 见 , 假设 属于 区 域 A 中 的 页 面 都 在 内 存 中 。 初 始 情况 下 ， 与 区 域 相关 的 所 有 页 面 帧 被 两 
个 进程 的 页 表 所 共享 。 即 使 这 些 页 面 所 在 的 区 域 是 逻辑 上 可 写 的 , 但 是 页 面 最 初 在 硬件 级 是 被 写 保 护 
的 。 如 果 某 一 个 进程 的 线程 试图 修改 数据 ， 就 会 产生 一 个 称 为 页 失 配 (page fault) 的 硬件 异常 。 假 设 
进程 B 试图 写 内 存 ， 页 失 配 处 理 程序 会 为 进程 B 分 配 一 个 新 的 帧 ， 并 将 原 帧 中 的 数据 以 字 节 为 单位 找 
贝 到 这 个 新 的 帧 中 。 同 时 ， 在 进程 B 的 页 表 中 ， 那 个 旧 的 帧 号 被 新 的 帧 号 所 代替 ， 而 在 进程 A 的 页 面 
表 中 的 页 面 帧 号 不 变 。 此 后 ， 进 程 A 和 进程 B 的 对 应 页 都 在 硬件 级 被 设 为 可 写 。 在 完成 了 以 上 操作 
后 ， 进 程 B 的 修改 指令 就 可 以 运行 了 。 
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RB 由 RA 复制 得 来 
内 核 
共享 帧 
A 的 页 表 上 一 ~ -| B 的 页 表 站 a 
a) 写 之 前 b) 写 之 后 
图 7-4 写 时 拷贝 


7.4.3 ”线程 


进程 的 另 一 个 需要 仔细 考虑 的 关键 方面 是 它 的 线程 。 本 节 主 要 介绍 使 客户 和 服务 器 进程 拥有 多 个 
线程 所 带 来 的 好 处 ， 然 后 会 用 Java 线程 作 例子 讨论 用 线程 进行 编程 。 最 后 介绍 实现 线程 的 各 种 方式 。 

考虑 图 7-5 所 示 的 服务 器 〈 稍 后 将 介绍 客户 ) 。 服 务 器 拥有 一 个 包含 一 个 或 多 个 线程 的 线程 池 ， 其 
中 每 一 个 线程 反复 地 从 队列 中 取出 已 收 到 的 请 求 并 对 其 进行 处 理 。 本 节 暂 不 讨论 是 如 何 接收 请 求 并 将 
其 排队 以 等 待 线程 处 理 的 。 并 且 为 了 简单 起 见 ， 我 们 假设 每 一 个 线程 都 采用 同样 的 过 程 来 处 理 请 求 。 
假设 每 一 个 请 求 平均 占用 2ms 的 处 理 时 间 和 8ms 的 1/0 延迟 ， 其 中 WO 延迟 是 由 于 服务 器 从 磁盘 上 读 
取信 息 造成 的 〈 假 设 没有 缓存 ) 。 同 时 进一步 假设 服务 器 在 一 个 单 处 理 器 的 计算 机 上 执行 。 


线程 2 向 服务 器 


RER Yy err 
线程 1 、_ 并 排队 
a 
ve 7 G 
oe NTAH 
客户 
服务 器 
图 7-5 拥有 线程 的 客户 和 服务 器 


下 面 以 每 秒 处 理 的 客户 请 求 数 为 度量 ,讨论 不 同 数 目的 线程 运行 时 服务 器 的 最 大 吞吐 量 。 如 果 只 
有 一 个 线程 来 执行 所 有 的 处 理 ， 因 为 执行 一 个 请 求 的 时 间 平 均 需要 2 +8 =10ms， 那么 服务 器 在 1s 内 能 
处 理 100 个 客户 请 求 。 当 服务 器 在 处 理 一 个 请 求 时 ， 任 何 新 到 达 的 请 求 将 在 服务 器 端口 上 排队 。 

现在 考虑 服务 器 的 线程 池 中 包含 两 个 线程 时 会 发 生 的 情况 。 假 设 每 个 线程 都 是 独立 调度 的 ， 也 就 
是 说 ， 当 一 个 线程 因为 VO 阻塞 时 ， 另 一 线程 仍 可 被 调度 。 这 样 当 第 一 个 线程 被 阻塞 的 时 候 ， 第 二 个 
线程 能 处 理 第 二 个 请 求 ， 反 之 亦 然 。 这 样 可 以 提高 服务 器 的 吞吐 量 。 遗 憾 的 是 ， 在 我 们 的 例子 中 ， 线 
程 会 被 单一 的 磁盘 存 取 阻 塞 。 如 果 所 有 的 磁盘 请 求 都 被 串 行 化 ， 且 每 一 个 请 求 用 8ms 来 执行 ， 那 么 ， 
服务 器 最 大 的 吞吐 量 为 每 秒 处 理 1000/8 = 125 个 请 求 。 
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现在 假设 系统 中 加 和 磁盘 缓存 。 服 务 器 将 它 读 到 的 数据 放 在 其 地 址 空间 的 缓冲 区 内 。 当 服务 器 线 
程 检索 数据 时 ， 它 首先 在 共享 缓存 中 查找 数据 ， 如 果 数 据 存在 于 缓存 中 ， 就 不 需要 再 访问 磁盘 。 如 果 
在 缓存 中 数据 的 平均 命中 率 为 75% ， 那 么 每 个 请 求 的 平均 VO 时 间 减 少 为 (0.75 x0 +0.25 x8) = 
2ms， 于 是 理论 上 最 大 吞吐 量 将 达到 每 秒 处 理 500 个 请 求 。 但 如 果 由 于 缓存 的 原因 ， 每 个 请 求 的 平均 处 
理 时 间 增 加 到 2. Sms (在 每 次 操作 中 寻找 缓存 中 的 数据 需要 耗费 额外 的 时 间 ) ， 那 么 上 述 数字 将 无 法 达 
到 。 这 时 ， 由 于 处 理 器 的 限制 ， 服 务 器 每 秒 只 能 处 理 1000/2. 5 = 400 个 请 求 。 

采用 共享 内 存 的 多 处 理 器 来 缓解 处 理 器 的 瓶颈 ， 可 以 提供 吞吐 量 。 多 线程 的 进程 可 以 自然 地 映射 
到 共享 内 存 的 多 处 理 器 上 。 其 共享 的 执行 环境 可 以 在 共享 内 存 中 实现 ， 并 且 多 个 线程 可 以 在 多 个 处 理 
器 上 运行 。 现 在 考虑 上 例 中 的 服务 器 是 在 有 两 个 处 理 器 的 多 处 理 机 上 执行 ， 假 设 线程 可 以 独立 调度 到 
不 同 的 处 理 器 上 ， 那 么 最 多 有 两 个 线程 可 以 并 行 地 处 理 请 求 。 读 者 应 该 计算 出 : 两 个 线程 每 秒 可 以 处 
理 444 个 请 求 ， 而 使 用 三 个 或 更 多 的 线程 ， 因 为 受 WVO 时 间 的 限制 ， 每 秒 可 以 处 理 500 个 请 求 。 

多 线程 服务 器 的 体系 结构 上 文 已 经 描述 了 多 线程 体系 结构 是 如 何 增 加 服务 器 的 吞吐 量 ， 其 中 ， 
香 吐 量 是 用 每 秒 处 理 的 请 求 数 度 量 的 。 为 了 描述 在 服务 器 内 将 请 求 分 配给 线程 的 不 同方 式 ， 我 们 引用 
了 Schmidt [1998] 总 结 的 结果 ， 他 描述 了 CORBA 的 对 象 请 求 代理 (Object Request Broker, ORB) 的 
多 种 实现 的 线程 体系 结构 。ORB 处 理 一 组 套 接 字 上 到 达 的 请 求 。 不 管 系统 是 否 使 用 CORBA, HRR 
系 结构 与 多 种 类 型 的 服务 器 相关 。 

图 7-5 给 出 了 一 种 可 能 的 线程 体系 结构 ， 即 工作 池 体 系 结构 (worker pool architecture) 。 它 的 最 简 
单 的 形式 是 由 服务 器 创建 一 个 固定 的 “工作 ”线程 池 以 便 在 启动 时 处 理 请 求 。 在 图 7-5 中 “接收 并 排 
队 ” 模 块 通常 由 一 个 VO 线程 实现 ， 该 线程 从 一 组 套 接 字 或 端口 中 接收 请 求 ， 并 将 它们 放 在 共享 的 请 
求 队列 上 以 便 工作 线程 检索 。 

有 时 候 ， 需 要 按 不 同 的 优先 级 处 理 请 求 。 例 如 ， 一 个 公司 的 Web 服务 器 可 以 根据 产生 请 求 的 用 户 
类 别 来 优先 处 理 某 些 请 求 [Bhatti and Friedrich 1999 ] 。 我 们 可 以 在 工作 池 体 系 结构 中 引入 多 个 请 求 队 
列 来 处 理 不 同 的 请 求 优先 级 ， 这 样 ， 工 作 线程 能 按 优先 级 降序 扫描 这 些 队列 。 这 种 体系 结构 的 一 个 缺 
点 是 缺乏 灵活 性 。 在 上 文 提出 的 例子 中 ， 如 果 池 中 的 工作 线程 数量 太 少 ， 则 不 能 及 时 处 理 到 达 的 每 一 
个 用 户 请 求 。 它 的 另 一 个 缺点 是 在 WO 和 工作 线程 之 间 的 高 层 切换 ， 因 为 它们 都 对 共享 队列 进行 操作 。 

在 一 请 求 一 线程 体系 结构 (thread-per-request architecture) ( 见 图 7-6a) H, VO 线程 为 每 一 个 请 
求 派生 一 个 新 的 工作 线程 ， 并 且 当 工作 线程 处 理 完 对 指定 远程 对 象 的 请 求 时 ， 它 会 销毁 自己 。 这 种 体 
系 结构 的 一 个 优点 是 线程 不 会 竞争 共享 队列 ， 并 且 吞吐 量 被 提高 到 最 大 限度 ， 这 是 因为 VO 线程 对 每 
一 个 未 处 理 的 请 求 ， 都 会 创建 一 个 工作 线程 来 处 理 它 。 它 的 缺点 是 创建 和 销毁 线程 会 带 来 巨大 开销 。 

一 连接 一 线程 体系 结构 (thread-per-connection architecture) ( 见 图 7-6b) 为 每 个 连接 分 配 一 个 线 
程 。 服 务 器 在 每 个 客户 建立 连接 时 创建 一 个 新 的 工作 线程 ， 并 在 客户 关闭 连接 时 销 筑 该 工作 线程 。 在 
这 一 过 程 中 ， 客 户 在 此 连接 上 可 发 送 多 个 请 求 ， 并 可 以 访问 一 个 或 多 个 远程 对 象 。 一 对 象 一 线程 体系 
结构 (thread-per-object architecture) ( 见 图 7-6c) 将 每 个 远程 对 象 分 别 与 一 个 线程 相连 。 一 个 IO 线程 
接收 请 求 并 将 其 放 和 人 队列 等 待 工作 线程 的 处 理 ， 此 时 每 一 个 对 象 有 一 个 请 求 队列 。 


工作 线程 每 个 连接 一 个 线程 每 个 对 象 一 个 线程 
© — > TE 
Nio” a i No 一 Siesta 
e f amis e — OOE 远程 对 象 o(a m 
~ G e Cy e ae 
a) 一 请 求 一 线程 b) 一 连接 一 线程 c) 一 对 象 一 线程 


图 7-6 几 种 服务 器 线程 体系 结构 (参见 图 7-5) 


相对 于 一 请 求 一 线程 的 体系 结构 而 言 ， 在 后 两 种 体系 结构 中 ， 服 务 器 可 以 从 降低 的 线程 管理 的 开 
销 中 获 益 。 这 两 种 体系 结构 的 缺点 是 当 一 个 工作 线程 有 多 个 请 求 等 待 处 理 时 ， 其 客户 的 请 求 会 被 延迟 ， 
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而 同时 可 能 有 其 他 线程 处 于 空闲 状态 。 

Schmidt[ 1998] 描述 了 这 些 体系 结构 的 衍生 形式 以 及 它们 的 一 些 混合 类 型 ， 并 详细 讨论 了 它们 各 
自 的 优点 和 缺点 。7.5 节 将 描述 在 单机 调用 环境 中 的 线程 模型 ， 在 该 模型 中 客户 线程 可 以 进入 服务 器 
的 地 址 空间 。 

客户 线程 ”线程 也 可 以 应 用 于 客户 ， 就 像 它 应 用 于 服务 器 一 样 。 图 7-5 也 描述 了 一 个 包含 两 个 线 
程 的 客户 进程 。 第 一 个 线程 生成 的 结果 通过 远程 方法 调用 传递 到 服务 器 ， 但 该 线程 不 需要 得 到 应 答 。 
然而 ， 即 使 调用 者 不 需要 返回 结果 ， 远 程 方法 调用 也 会 阻塞 调用 者 。 客 户 进程 包含 的 第 二 个 线程 可 以 
执行 远程 方法 调用 并 且 被 阻塞 ， 而 此 时 第 一 个 线程 可 以 继续 进行 计算 工作 。 第 一 个 线程 将 结果 放 在 组 
冲 区 内 ， 而 第 二 个 线程 从 缓冲 区 内 取出 结果 。 只 有 在 所 有 缓冲 区 满 了 以 后 ， 第 一 个 线程 才 被 阻塞 。 

Web 浏览 器 就 是 采用 多 线程 的 客户 结构 的 例子 。 用 户 在 获取 网 页 时 经 常会 经 历 延 迟 ， 因 此 浏览 器 
必须 能 处 理 多 个 并 发 的 获取 网 页 的 请 求 。 

线程 与 多 进程 ”从 上 面 的 例子 中 可 以 了 解 到 ， 线 程 的 使 用 允许 计算 与 VO 操作 同时 进行 ,在 多 处 
理 器 的 情况 下 ， 还 可 以 允许 多 个 计算 任务 同时 进行 。 读 者 可 能 注意 到 ， 使 用 多 个 单线 程 的 进程 也 可 能 
达到 同样 的 并 行 执行 的 结果 。 那 么 ， 为 什么 多 线程 进程 模型 更 适合 呢 ? 其 原因 包括 两 方面 : 线程 的 创 
建 和 管理 开销 比 进 程 少 ; 同时 ， 因 为 线程 共享 一 个 执行 环境 ， 线 程 之 间 比 进程 之 间 更 容易 共享 资源 。 

图 7-7 分 别 给 出 了 执行 环境 和 线程 必须 要 维护 的 几 种 主要 的 状态 组 件 。 一 个 执行 环境 拥有 一 个 地 
址 空间 、 像 套 接 字 这 样 的 通信 接口 、 像 打开 的 文件 这 样 的 高 级 资源 以 及 像 信 号 量 这 样 的 线程 同步 对 象 。 
表 中 也 列 出 了 与 之 相关 的 线程 。 线 程 拥有 一 个 调度 优先 级 、 一 个 执行 状态 (例如 BLOCKED 或 RUN- 
NABLE) 、 当 线程 阻塞 时 存储 处 理 器 的 寄存 器 值 和 与 线程 的 软件 中 断 处 理 有 关 的 状态 。 一 个 软件 中 断 
(software interrupt) 是 导致 线程 中 断 〈 类 似 于 硬件 中 断 的 情况 ) 的 一 个 事件 。 如 果 线 程 被 赋予 了 一 个 
处 理 程 序 ， 那 么 控制 权 就 被 转移 给 它 了 。UNIX 的 信和 号 便 是 软 中 断 的 例子 。 


执行 环境 gf 
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地 址 空间 表 被 保存 的 处 理 器 寄存 器 
通信 接口 、 打 开 的 文件 优先 级 和 执行 状态 (例如 BLOCKED 状态 ) 
信号 量 及 其 他 同步 对 象 软件 中 断 处 理 信息 
线程 标识 符 列表 执行 环境 标识 符 
驻 留 在 内 存 的 地 址 空间 页 面 ， 硬 件 缓存 人 口 





图 7-7 与 执行 环境 和 线程 相关 的 状态 


图 7-7 显示 了 执行 环境 和 其 线程 都 与 驻 留 在 内 存 中 的 地 址 空间 的 页 面 以 及 在 硬件 缓存 中 的 数据 和 
指令 相关 。 

下 面 我 们 将 对 进程 和 线程 的 比较 总 结 如 下 : 

。 在 一 个 已 有 进程 内 创建 一 个 线程 比 创建 一 个 进程 开销 小 。 

。 更 重要 的 是 ， 在 一 个 进程 的 不 同 线程 之 间 切 换 比 在 不 同 进程 的 线程 之 间 切 换 的 开销 小 。 

。 与 多 个 进程 相 比 ， 一 个 进程 内 的 线程 可 以 方便 有 效 地 共享 数据 和 其 他 资源 。 

。 然而 ， 出 于 同样 的 原因 ， 线 程 不 能 防止 同一 进程 内 其 他 线程 的 非法 访问 。 

下 面 考虑 在 一 个 已 有 的 执行 环境 中 创建 新 线程 的 开销 。 创 建新 线程 的 主要 工作 是 为 线程 的 栈 分 配 
一 个 区 域 并 为 处 理 器 中 的 寄存 器 、 线 程 执行 状态 〈 初 始 值 可 以 是 SUSPENDED 或 RUNNABLE), ， 以 及 
优先 级 提供 一 个 初始 值 。 因 为 执行 环境 已 经 存在 ， 因 此 只 需要 在 线程 的 描述 符 记 录 〈 其 中 包含 管理 线 
程 执行 的 必要 数据 ) 中 放置 此 执行 环境 的 标识 符 即 可 。 

创建 进程 的 开销 一 般 远 远 高 于 创建 一 个 新 的 线程 的 开销 。 创 建 进程 时 ， 必 须 首先 创建 一 个 新 的 执 
行 环境 ， 其 中 包括 一 个 地 址 空间 表 。Anderson 等 人 [1991] 给 出 了 下 列 数 据 : 在 运行 Topaz 内 核 的 
CVAX 处 理 器 体系 结构 上 ， 花费 1lms 用 于 创建 一 个 新 的 UNIX 进程 ， 而 创建 一 个 线程 只 用 Ims, EX 
两 种 情形 中 ， 所 度量 的 时 间 包 括 用 一 个 新 的 实体 调用 一 个 空 的 过 程 然后 退出 。 这 些 数 字 只 是 给 出 一 个 
大 致 的 估计 。 
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当 这 个 新 的 实体 执行 一 些 有 用 的 工作 ， 而 不 是 只 调用 一 个 空 的 过 程 时 ， 它 会 产生 长 期 的 开销 ， 但 
创建 新 进程 所 产生 的 这 一 开销 仍 比 在 已 有 进程 中 创建 新 线程 的 开销 多 。 在 操作 系统 的 内 核 支持 虚拟 内 
存 的 情况 下 ， 新 创建 的 进程 第 一 次 引用 数据 和 指令 时 会 发 生 一 个 页 失 配 。 在 初始 情况 下 ， 硬 件 缓存 不 
包含 新 进程 的 数据 值 ， 它 必须 在 进程 执行 时 获得 缓存 数据 。 在 创建 线程 的 情形 中 ， 这 样 的 长 期 开销 也 
可 能 存在 ， 但 它 相对 要 小 一 些 。 当 新 线程 所 要 访问 的 程序 代码 和 数据 已 经 被 进程 中 的 其 他 线程 所 访问 
时 ， 它 便 自 动 地 利用 硬件 或 主 存 缓存 。 

线程 的 第 二 个 性 能 上 的 优点 在 于 线程 间 的 切换 。 所 谓 线程 切换 是 指 在 给 定 处 理 器 上 运行 一 个 新 的 
线程 以 代替 原来 运行 的 线程 。 它 的 开销 是 非常 重要 的 ， 因 为 这 在 线程 的 生命 期 中 会 经 常 发 生 。 在 共享 
同一 执行 环境 的 线程 之 间 切 换 的 开销 要 比 在 不 同 进程 的 线程 之 间 切 换 的 开销 低 得 多 。 线 程 切换 的 开销 
主要 来 源 于 调度 (选择 下 一 个 将 要 运行 的 线程 》 和 上 下 文 切换 。 

处 理 器 的 上 下 文 包括 程序 计数 器 这 样 的 处 理 器 寄存 器 的 值 ， 还 包括 当前 硬件 的 保护 域 : 地 址 空间 
和 处 理 器 保护 模式 (管理 模式 或 用 户 模式 ) 。 上 下 文 切换 是 在 线程 切换 时 或 一 个 线程 进行 系统 调用 或 
处 理 其 他 异常 时 发 生 的 上 下 文 转换 。 它 涉及 以 下 两 方面 : 

。 保存 处 理 器 寄存 器 中 原先 的 状态 ， 并 装载 新 的 状态 。 

。 在 某 些 情况 下 ， 转 换 到 新 的 保护 域 ， 这 就 是 所 说 的 域 转换 〈domain transition) 。 

共享 同一 执行 环境 的 线程 只 有 完全 在 用 户 层 切换 才 不 会 引起 域 转换 ， 并 且 其 开销 也 比较 低 。 切 换 
到 内 核 或 通过 内 核 切 换 到 属于 同一 执行 环境 的 其 他 线程 都 会 涉及 域 转换 ， 其 开销 会 相对 高 一 些 ， 然 而 ， 
如 果 内 核 被 映射 到 该 进程 的 地 址 空间 ， 其 开销 仍然 比较 低 。 如 果 在 属于 不 同 执行 环境 的 线程 间 切 换 ， 
其 开销 就 比较 大 。 下 面 会 描述 为 实现 域 转换 而 对 硬件 缓存 的 开销 影响 。 当 域 转换 发 生 时 ， 长 期 开销 更 
倾向 于 是 由 访问 硬件 缓存 条 目 和 主 存 页 面 引起 的 。Anderson 等 人 [1991] 提供 的 数据 说 明 ， 在 Topaz 
ARE, Æ UNIX 的 进程 间 进 行 切换 需 花 费 1. 8ms ， 而 在 同一 执行 环境 下 的 线程 切换 只 需 花费 0. 4ms。 
如 果 线 程 在 用 户 级 切换 ， 则 花费 的 时 间 更 少 〈0. 04ms) 。 这 些 数据 只 是 一 个 大 致 的 估计 ， 此 处 没有 考 
虚 长 期 的 缓存 开销 。 

在 上 面包 含 两 个 线程 的 客户 进程 的 例子 中 ， 第 一 个 线程 产生 数据 ， 并 将 其 传递 给 第 二 个 线程 ， 由 
第 二 个 线程 进行 远程 方法 调用 或 远程 过 程 调用 。 因 为 这 两 个 线程 共享 地 址 空间 ， 所 以 不 需要 在 它们 之 
间 通 过 消息 传递 数据 ， 而 是 通过 一 个 公共 变量 来 访问 数据 。 这 里 存在 着 多 线程 操作 的 优点 和 危险 。 优 
点 在 于 它们 可 以 方便 、 高 效 地 访问 共享 数据 ， 在 服务 器 方 这 一 优点 体现 得 更 为 充分 ， 如 上 面 给 出 的 组 
存 文件 数据 的 例子 。 然 而 ， 如 果 共 享 同 一 地 址 空间 的 线程 不 是 用 类 型 安全 的 语言 编写 的 ， 那 么 它们 就 
得 不 到 保护 。 一 个 异常 的 线程 可 以 随意 地 改变 其 他 线程 使 用 的 数据 ， 这 会 造成 错误 。 如 果 必 须 保 护 执 
行 的 线程 ,那么 必须 用 安全 类 型 语言 编写 线程 ， 或 者 改 用 多 进程 而 不 是 多 线程 。 


别名 问题 内存 管 理 单元 通常 包括 一 个 硬件 缓存 ， 用 于 加 速 虚 拟 地 址 和 物理 地 址 间 的 翻译 ， 该 
硬件 缓存 被 称 为 翻译 检索 缓冲 区 (translation lookaside buffer, TLB), TLB 与 存放 在 虚拟 地 址 中 的 数 
据 和 指令 的 缓存 一 样 ， 都 会 遇 到 别名 问题 。 同 一 虚拟 地 址 可 以 在 两 个 不 同 的 地 址 空间 中 都 有 效 ， 但 
实际 上 它们 在 两 个 地 址 空间 中 指向 的 是 不 同 的 物理 数据 。 仅 当 它 们 的 入口 被 标记 了 上 下 文 标识 符 ， 
TLB 和 虚拟 地 址 化 的 缓存 才 会 知道 这 一 点 ， 否 则 缓存 会 包含 不 正确 的 数据 。 因 此 ，TLB 和 缓存 内 容 
必须 有 选择 地 进 人 不 同 的 地 址 空间 。 物 理 地 址 化 的 缓存 不 会 遇 到 别名 问题 ， 但 是 通常 采用 虚拟 地 址 
来 查找 缓存 ， 这 是 因为 这 种 查找 操作 可 以 和 地 址 翻译 同时 进行 。 


线程 编程 ”线程 编程 是 一 种 并 发 编程 ， 与 通常 在 操作 系统 领域 中 的 研究 一 样 。 本 节 涉 及 下 列 并 发 
编程 的 概念 ， 在 Bacon[ 1998] 中 透彻 地 解释 了 这 些 概念 : 竞争 条 件 (race condition), FR (critical 
section) (Bacon 把 它 叫 做 临界 区 域 ) 、 监 视 器 (monitor)、 条 件 变 量 (condition variable) 和 信号 量 
(semaphore) 。 

许多 线程 是 用 C 这 样 的 常规 语言 编写 的 ， 这 些 语言 已 经 扩充 有 线程 库 。 为 Mach 操作 系统 开发 的 C 
线程 包 便 是 一 个 例子 。 最 近 ，POSIX 线程 标准 IEEE 1003. 1c 一 1995 ， 也 就 是 所 说 的 pthreads ， 已 经 被 广 
泛 采 用 了 。Boykin 等 人 [1993] 基于 Mach 系统 描述 了 C 线程 和 pthreads。 
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些 语言 提供 了 对 线程 的 直接 支持 ， 其 中 包括 Ada95[ Burns and Wellings 1998 ] 、Modula-3[ Harbi- 
son 19921 和 最 近 的 Javal Oaks and Wong 1999] 。 下 面 将 简单 介绍 一 下 Java 线程 。 
像 许多 线程 实现 一 样 ，Java 提供 了 线程 创建 、 销 毁 和 同步 的 方法 。Java Thread 类 包括 图 7-8 中 列 
出 的 构造 通 数 和 管理 方法 。Thread 和 Object 的 同步 方法 在 图 7-9 中 列 出 。 


Thread(ThreadGroup group, Runnable target, String name) 
创建 一 个 状态 为 SUSPENDED 的 新 线程 ， 它 将 属于 group， 其 标识 符 
为 name; 这 一 线程 会 执行 iarget 的 run)) 方 法 。 
setPriority(int newPriority), getPriorip0 
设置 和 返回 线程 的 优先 级 。 
run() 
如 果 线 程 的 目标 对 象 有 run() 方 法 ， 线 程 执 行 其 目标 对 象 的 run0) 方 法 ， 
否则 它 执行 自己 的 run0) 方 法 (Thread 实 现 Runnable〉。 
start) 
将 线程 的 SUSPENDED 状 态 转换 为 RUNNABLE 状 态 。 
sleep(long millisecs) 
将 线程 转换 为 SUSPENDED 状 态 ， 并 持续 指定 的 时 间 。 
yield) 
进入 READY 状 态 并 调用 调度 程序 。 
destroy() 
销毁 线程 。 











图 7-8 Java 线程 的 构造 函数 和 管理 方法 





thread, join(long millisecs) 
调用 进程 阻塞 指定 的 时 间 ， 直 到 thread 终 止 为 止 。 
thread. interrupt() 
中 断 thread， 使 其 从 导致 它 阻塞 的 方法 〈 如 sleep 0 ) 返回 。 
object.wait(long millisecs, int nanosecs) 
阻塞 调用 线程 ， 直 到 调用 object 的 notify 0 或 notifyAli0 方 法 唤醒 线程 ， 或 者 线程 被 中 断 ， 又 或 者 阻塞 了 指定 的 时 间 为 止 。 
object.notify(, object.notifyAll() 
| 分 别 了 唤醒 一 个 或 多 个 在 object 上 调用 wait 0) 方法 的 线程 。 








图 7-9 Java 线程 同步 调用 


线程 生命 期 ”新 线程 和 它 的 创建 者 在 同一 台 Java 虚拟 机 (JVM) 上 ， 一 开始 处 于 SUSPENDED 状 
态 。 在 它 执行 了 start() 方 法 以 后 处 于 RUNNABLE 状态 ， 这 之 后 ， 它 执行 在 其 构造 阴 数 中 指定 的 一 个 对 
象 的 mn( 方 法 。JVM 和 其 上 的 线程 都 是 在 底层 操作 系统 上 的 一 个 进程 内 执行 的 。 线 程 可 以 被 赋予 一 个 
优先 级 因此， 支持 优先 级 的 Java 实现 会 在 运行 低 优先 级 线程 之 前 运行 高 优先 级 线程 。 当 线程 执行 完 
run() 方 法 或 调用 destroy() 方法 时 ， 线 程 的 生命 期 便 结束 了 。 

程序 可 以 按 组 管理 线程 。 在 创建 线程 时 ， 它 可 以 被 指定 属于 一 个 组 。 当 有 许多 应 用 程序 在 同一 个 
JVM 上 运行 时 ， 线 程 组 是 非常 有 用 的 。 使 用 组 的 一 个 例子 是 安全 性 : 在 默认 情况 下 ， 一 个 组 内 的 线程 

不 能 执行 其 他 组 中 的 线程 的 管理 操作 。 例如 ， 一 个 应 用 程序 线程 不 能 恶意 打 断 系统 窗口 (AWT) 

线程 。 

线程 组 也 使 对 线程 相关 优先 级 (在 支持 优先 级 的 Java 实现 中 ) 的 控制 更 方便 。 这 对 运行 applet 的 
浏览 器 和 运行 servlet 程序 的 Web 服务 器 很 有 用 [Hunter and Crawford 1998 ] ， 其 中 servlet 能 创建 动态 
Web 页 面 。 在 applet 或 servlet 内 部 的 无 授权 的 线程 只 能 生成 属于 自己 线程 组 的 线程 ， 或 者 将 新 线程 加 
入 到 在 其 内 部 生成 的 后 代 线 程 组 中 (其 详细 的 限制 由 它 所 在 的 安全 管理 器 决定 )。 浏 览 器 和 服务 器 可 
以 将 属于 不 同 applet 或 servlet 的 线程 加 入 到 不 同 的 组 中 并 将 这 些 组 (包括 后 代 线 程 组 ) 作为 一 个 整体 
设置 一 个 最 大 的 优先 级 。applet 和 servlet 线程 不 能 超越 其 管理 器 线程 设置 的 线程 组 的 优先 级 ， 因 为 它 
们 不 能 通过 调用 setPriority() 来 覆盖 组 优先 级 。 

线程 同步 ”编程 者 必须 很 小 心地 编写 具有 多 线程 的 进程 。 最 困难 的 问题 是 共享 对 象 和 用 于 线程 协 
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调和 合作 的 技术 。 每 一 个 线程 的 方法 中 的 局 部 变量 是 其 私有 的 一 一 线程 有 其 私有 栈 。 然 而 ， 线 程 没 有 
静态 (类 ) 变量 或 对 象 实例 变量 的 私有 拷贝 。 

例如 ,在 本 节 前 面 描述 的 共享 队列 的 例子 中 ，I0O 线程 和 工作 线程 在 一 些 服务 器 线程 体系 结构 中 
传输 请 求 。 从 原理 上 看 ， 线 程 并 发 处 理 像 队列 这 样 的 数据 结构 时 必然 会 引起 竞争 。 除 非 仔细 协调 线程 
的 指针 操作 ， 和 否则 必然 会 引起 队列 中 请 求 的 丢失 或 重复 处 理 。 

Java 提供 了 synchronized 关键 字 以 便 程序 员 为 线程 的 协调 指定 监视 器 。 程 序 员 可 以 指定 完整 的 方 
法 ， 也 可 以 指定 任意 代码 块 作为 属于 某 个 对 象 的 监控 器 。 监 视 器 可 以 保证 在 同一 时 刻 最 多 只 有 一 个 线 
程 在 执行 。 通 过 将 Queue 类 的 addTo() 和 removeFrom() 方 法 指定 为 synchronized 方法 ， 我 们 可 以 将 例子 
中 WO 线程 和 工作 线程 的 操作 串 行 化 。 相 对 于 这 些 方法 的 调用 ， 在 这 些 方法 中 所 有 对 变量 的 访问 操作 ， 
都 是 互 斥 完 成 的 。 

Java 允许 通过 任何 作为 条 件 变量 的 对 象 来 阻塞 或 唤醒 线程 。 需 要 阻塞 以 等 待 某 一 条 件 的 线程 调用 
一 个 对 象 的 wait() 方 法 。 所 有 的 Java 对 象 都 实现 了 这 一 方法 ， 因 为 它 属于 Java 的 根 Object 类 。 另 外 一 
个 线程 调用 notify() 方 法 来 为 至 多 一 个 等 待 该 对 象 的 线程 解除 阻塞 状态 ， 也 可 以 调用 notifyAll () 方法 为 
所 有 等 待 该 对 象 的 线程 解除 阻塞 状态 。 这 两 个 唤醒 方法 也 属于 Object 类 。 

作为 一 个 例子 ， 当 一 个 工作 线程 发 现 没有 可 处 理 的 请 求 时 ， 它 会 调用 Queue 实例 的 wait() 方 法 。 
当 VO 线程 后 来 在 队列 中 加 入 一 个 请 求 时 ， 它 会 调用 队列 的 notify() 方 法 以 唤醒 工作 线程 。 

图 7-9 给 出 了 Java 的 同步 方法 。 除 了 已 提 到 的 同步 原 语 外 ，join() 方 法 将 阻塞 其 调用 者 ， 直 到 目的 
线程 终结 为 止 。interrupt() 方 法 用 于 提前 唤醒 一 个 等 待 进程 。Java 实现 了 所 有 标准 的 同步 原 语 ， 如 信号 
量 。 但 必须 注意 ， 因 为 Java 的 监视 器 保证 只 应 用 于 对 象 的 同步 代码 ; 一 个 类 可 能 会 同时 其 有 同步 和 非 
同步 的 方法 。 还 要 注意 ， 一 个 Java 对 象 实现 的 监视 器 只 包括 一 个 隐 式 条 件 变 量 ， 而 通常 ， 一 个 监视 器 
可 以 包含 多 个 条 件 变量 。 

线程 调度 ”抢占 性 和 非 抢 占 性 线程 调度 策略 之 间 的 区 别 非常 明显 。 在 抢占 性 调度 (preemptive 
scheduling) 中 ， 线 程 可 以 在 执行 中 的 任 一 时 刻 因 被 其 他 线程 抢占 而 挂 起 ， 甚 至 当 已 经 抢占 处 理 器 的 线 
程 正 准备 运行 时 也 是 如 此 。 在 非 抢 占 性 调度 (non- preemptive scheduling) 中 (有 时 也 叫 协 同调 度 )， 当 
系统 准备 让 一 个 线程 退出 运行 并 让 其 他 线程 运行 时 ， 此 线程 并 不 一 定 退 出 ， 它 要 运行 到 进行 一 次 线程 
系统 的 调用 (例如 系统 调用 ) Wik. 

非 抢占 性 调度 的 好 处 在 于 ， 每 一 个 不 包含 对 线程 系统 调用 的 代码 区 都 自动 地 成 为 一 个 临界 区 。 这 
样 可 以 很 方便 地 避免 竞争 条 件 。 另 一 方面 ， 因 为 非 抢占 性 调度 的 线程 是 独占 式 运行 的 ， 所 以 它们 不 能 
利用 多 处 理 器 。 要 小 心 对 待 长 期 运行 的 不 含 线程 系统 调用 的 代码 区 。 程 序 员 可 能 需要 在 程序 中 插入 一 
个 yield() 调用， 其 唯一 的 作用 在 于 使 其 他 线程 能 被 调度 执行 。 非 抢占 性 调度 的 线程 也 不 适合 于 实时 应 
用 ， 在 实时 应 用 中 ,事件 与 绝对 时 间 相 关 ， 尝 件 必须 在 规定 的 时 间 内 被 处 理 。 

尽管 有 实时 Java 实现 [www. rtj. org] ， 但 在 默认 情况 下 ，Java 不 支持 实时 处 理 。 例 如 ， 处 理 音 频 和 
视频 的 多 媒体 应 用 程序 对 通信 和 和 处理 《例如 过 滤 和 压缩 ) 有 实时 要 求 [Govindan and Anderson 1991] , 
第 20 章 将 讨论 实时 线程 调度 的 需求 。 过 程控 制 是 实时 领域 的 另 一 个 例子 。 一 般 来 说 ， 每 个 实时 领域 都 
有 其 自己 的 线程 调度 要 求 。 因 此 ， 有 时 需要 应 用 程序 实现 自己 的 调度 策略 。 考 虑 到 这 一 点 ， 下 面 我 们 
将 介绍 线程 的 实现 。 

线程 实现 ”许多 操作 系统 内 核 ， 包 括 Windows, Linux, Solaris, Mach 和 Mac OS X 都 支持 多 线程 进 
程 。 这 些 内 核 提供 了 用 于 线程 创建 和 管理 的 系统 调用 ， 同 时 它们 还 调度 线程 。 其 他 一 些 内 核 只 提供 了 
单线 程 进程 的 抽象 。 多 线程 进程 必须 在 一 个 与 应 用 程序 相 链 接 的 过 程 库 中 实现 。 在 这 种 情况 下 ， 内 核 
不 知道 这 些 用 户 级 的 线程 ， 因 此 就 不 能 独立 地 调度 它们 。 这 时 ,线程 运行 时 库 负 责 组 织 线程 调度 。 通 
过 调用 一 个 阻塞 型 的 系统 调用 ， 一 个 线程 可 以 阻塞 进程 和 进程 中 所 有 线程 ， 这 样 可 以 开发 内 核 的 异步 
( 非 阻塞 的 ) 1/0 功能 。 类 似 地 ， 也 可 以 利用 内 核 提 供 的 定时 器 和 软 中 断 设施 来 实现 线程 的 时 间 片 机 制 。 

当 内 核 不 支持 多 线程 进程 时 ， 用 户 级 的 线程 实现 时 会 遇 到 下 列 问题 : 

。 一 个 进程 内 的 线程 不 能 利用 多 处 理 器 。 

。 一 个 线程 在 遇 到 页 失 配 时 会 阻塞 整个 进程 和 进程 内 所 有 的 线程 。 
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。 不 同 进程 中 的 线程 不 能 按 统一 的 优先 级 方案 调度 。 

另 一 方面 ， 相 对 于 内 核 级 的 线程 实现 ， 用 户 级 的 线程 实现 有 如 下 优点 : 

。 某 些 线程 操作 的 开销 小 。 例 如 ， 在 同一 进程 内 的 线程 间 切 换 不 必 涉 及 系统 调用 ， 而 系统 调用 需 

要 陷入 内 核 ， 其 开销 是 比较 大 的 。 
。 若 线程 调度 模块 是 在 内 核 外 部 实现 的 ， 那么 ， 它 可 以 被 定制 或 改变 以 满足 特定 应 用 的 需要 。 因 
为 有 应 用 特定 的 考虑 ， 例 如 多 媒体 处 理 需要 具有 实时 性 ， 所 以 ， 对 线程 调度 的 需求 相差 很 大 。 

。 能 支持 比 内 核 默认 提供 得 更 多 的 用 户 级 线程 。 

可 以 将 用 户 级 线程 实现 和 内 核 级 线程 实现 的 优点 组 合 起 来 。 一 种 已 经 被 应 用 的 方法 是 使 用 户 级 代 
码 能 为 内 核 线 程 调度 器 提供 调度 提示 ， 例 如 Mach 内 核 [1990] 。 另 外 一 种 方法 是 一 种 层次 化 调度 ， 如 
Solaris2 操作 系统 采用 的 方式 。 每 一 个 进程 可 以 创建 一 个 或 多 个 内 核 级 线程 ， 在 Solaris 中 叫做 “ 轻 量 级 
进程 ”， 它 同时 支持 用 户 级 线程 。 用 户 级 调度 器 将 每 一 个 用 户 级 线程 指定 到 一 个 内 核 级 线程 上 。 这 一 机 
制 可 以 充分 利用 多 处 理 器 ， 同 时 也 可 以 获得 因为 线程 创建 和 线程 切换 都 在 用 户 级 进行 而 得 到 的 好 处 。 
这 一 模式 的 不 足 在 于 它 缺 少 灵 活性 : 如 果 一 个 线程 在 内 核 中 被 阻塞 ,那么 所 有 指定 到 其 上 的 用 户 级 线 
E, 不管 其 是 否 能 够 运行 ， 就 都 不 能 运行 了 。 

为 了 进一步 提供 有 效 性 和 灵活 性 ， 一 些 研究 项 目 开发 出 了 层次 化 调度 。 其 中 包括 所 谓 的 调度 器 激 
活 [Anderson et al. 1991] Govindan 和 Anderson [1991] 的 多 媒体 工作 、Psyche 多 处 理 器 操作 系统 
[ Marsh et al. 1991], Nemesis 内 核 [ Leslie et al. 1996] 和 SPIN 内 核 [ Bershad et al. 1995 ] 。 驱 动 这 些 设 
计 的 洞察 力 是 : 用 户 级 调度 对 内 核 的 需要 并 不 能 完全 由 将 内 核 级 线程 映射 到 用 户 级 线程 这 种 方式 来 满 
足 。 用 户 级 调度 器 还 需要 内 核 向 它 通知 与 它 调度 决定 相关 的 事件 。 下 面 将 介绍 调度 器 激活 的 设计 ， 以 
使 读者 能 详细 了 解 这 一 点 。 

Anderson [1991] 的 “快速 线程 包 ” 是 一 个 层次 化 、 基 于 事件 的 调度 系统 。 他 们 考虑 到 ， 主 要 
的 系统 组 件 是 一 个 运行 在 一 个 或 多 个 处 理 器 上 的 内 核 和 一 些 在 其 上 运行 的 应 用 程序 。 每 一 个 应 用 进程 
包括 一 个 用 户 级 的 调度 器 ， 它 负责 管理 进程 内 的 线程 。 内 核 负 责 给 进程 分 配 虚 拟 处 理 器 。 指 派 给 一 个 
进程 的 虚拟 处 理 器 的 数量 取决 于 下 列 因素 : 应 用 程序 的 需求 、 它 们 的 相对 优先 级 以 及 对 处 理 器 总 的 需 
求 量 。 图 7-10a 描述 了 一 个 包含 3 个 处 理 器 的 计算 机 的 例子 ， 其 中 ， 内 核 将 一 个 虚拟 处 理 器 分 配给 进 
程 A， 用 于 执行 一 个 优先 级 相对 低 的 任务 ; 同时 将 两 个 虚拟 处 理 器 分 配给 进程 B。 因 为 内 核 随 着 时 间 
的 流逝 可 以 为 每 个 进程 分 配 不 同 的 处 理 器 ， 只 要 保证 它 所 分 配 的 处 理 器 总 数 即 可 ， 所 以 这 些 处 理 器 被 
称 为 虚拟 处 理 器 。 

分 配给 进程 的 虚拟 处 理 器 的 数量 也 可 以 变化 。 进 程 可 以 让 出 一 个 它 不 再 需要 的 虚拟 处 理 器 ， 也 可 
以 请 求 一 个 额外 的 虚拟 处 理 器 。 例 如 ， 如 果 进 程 A 请 求 获 得 一 个 额外 的 虚拟 处 理 器 而 进程 B 终 止 了 ， 
那么 内 核 可 以 将 一 个 处 理 器 分 配给 进程 A。 

图 7-10b 描述 了 当 一 个 虚拟 处 理 器 “空闲 ”并 不 再 需要 时 ， 或 者 当 进 程 请 求 获得 额外 的 虚拟 处 理 
器 时 ， 进 程 通知 内 核 的 情况 。 


加 入 P 





进程 A ”进程 B l SA 被 抢占 
有 进程 SA 被 解除 阻塞 
内 核 SA 被 阻塞 
| as 
虚拟 处 理 器 We | eee 
a) 将 虚拟 处 理 器 分 配给 进程 b 在 用 户 级 调度 器 和 内 核 之 间 的 事件 


id: P= 处 理 器 ; SA- 调度 器 激活 ， 
图 7-10 调度 器 激活 
图 7-10b 也 描述 了 四 种 类 型 的 事件 发 生 时 ， 内 核 通 知 进程 的 情况 。 调 度 器 激活 (scheduler 
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activation, SA) 是 一 个 从 内 核 到 进程 的 调用 ， 它 通知 进程 的 调度 器 有 一 个 事件 发 生 。 从 一 个 低层 〈 内 
核 ) 以 这 种 方式 进入 上 层 代码 区 被 称 为 上 调 〈upcall) ; 内 核 通过 从 物理 处 理 器 的 寄存 器 中 载 人 上 下 文 
来 创建 一 个 SA， 这 个 上 下 文 用 以 使 进程 的 代码 在 用 户 级 调度 器 指定 的 过 程 地 址 处 得 以 开始 运行 。 这 
样 ， 一 个 SA 也 是 虚拟 处 理 器 上 一 个 时 间 片 的 分 配 单 元 。 用 户 级 调度 器 把 处 于 READY 状态 的 线程 指派 
给 当前 正在 执行 的 SA 集合 。SA 的 数量 最 多 不 能 超过 内 核 指派 给 这 个 进程 的 虚拟 处 理 器 的 数量 。 

下 面 是 内 核 通知 用 户 级 调度 器 〔〈 下 面 将 简称 为 调度 器 ) 的 四 种 事件 : 

唐 拟 处 理 器 已 分 配 : 内 核 已 经 将 一 个 新 的 虚拟 处 理 器 指派 给 这 个 进程 ， 并 且 这 是 其 上 的 第 一 个 时 
间 片 ;调度 器 可 以 用 一 个 READY 状态 线程 的 上 下 文 载 人 SA， 这 样 ， 线 程 能 重新 开始 执行 。 

SA 被 阻塞 : SA 在 内 核 中 被 阻塞 。 内 核准 备 使 用 一 个 新 的 SA 来 通知 调度 器 ; 调度 器 将 相应 线程 的 
状态 设置 为 BLOCKED ， 并 分 配 一 个 READY 线程 用 于 通知 SA。 

SA 被 解除 阻塞 : 在 内 核 中 阻塞 的 SA 被 解除 阻塞 ， 并 准备 好 可 以 再 次 在 用 户 级 执行 。 调 度 器 现在 
可 以 将 相应 的 线程 插入 到 READY 列表 中 。 为 了 创建 用 于 通知 的 SA ， 内 核 或 者 为 进程 分 配 一 个 新 的 虚 
拟 处 理 器 ， 或 者 它 抢 占 同 一 进程 上 的 另 一 个 SA 。 在 后 一 种 情况 中 ， 它 还 将 抢占 事件 告知 调度 器 ， 调 度 
器 可 以 重新 评估 线程 分 配 到 SA 的 情况 。 

SA 被 抢占 : 内 核 从 这 个 进程 夺 走 一 个 SA (虽然 可 以 通过 这 样 做， 将 一 个 处 理 器 分 配给 在 同一 进 
程 上 新 的 SA) ;调度 器 将 被 抢占 的 线程 放 到 READY 列表 中 ， 并 重新 评估 线程 分 配 情况 。 

因为 进程 的 用 户 级 调度 器 可 以 根据 在 低级 事件 的 基础 上 建立 的 任何 协议 将 线程 分 配给 SA， 所 以 层 
次 化 调度 方式 更 具有 灵活 性 。 内 核 总 以 同一 方式 运行 。 它 不 会 影响 用 户 级 调度 器 的 行为 ， 但 是 它 通过 
事件 通知 和 提供 阻塞 和 抢占 线程 的 寄存 器 状态 来 帮助 调度 。 这 一 方式 可 能 是 有 效 的 ， 因 为 它 保证 了 当 
有 一 个 虚拟 处 理 器 可 以 运行 时 ， 就 不 会 有 用 户 级 线程 仍 需 要 处 于 READY 状态 。 


7.5 通信 和 调用 

下 面 我 们 将 把 通信 作为 调用 机 制 的 实现 的 一 部 分 来 进行 讨论 。 调 用 的 例子 有 远程 方法 调用 、 远 过 
程 调用 和 事件 通知 ， 其 作用 是 在 不 同 的 地 址 空间 上 执行 对 资源 的 操作 。 

通过 考虑 下 面 的 关于 操作 系统 的 问题 ， 我 们 可 以 探讨 一 下 操作 系统 的 设计 问题 和 概念 : 

© 操作 系统 提供 什么 样 的 通信 原 语 ? 

。 操作 系统 支持 什么 样 的 协议 以 及 通信 实现 的 开放 性 有 多 大 ? 

。 应 采取 哪些 步骤 以 使 通信 尽 可 能 地 有 效 ? 

。 为 高 延迟 和 断 链 操作 提供 了 哪些 支持 ? 

BERE 一些 为 分 布 式 系统 设计 的 内 核 所 提供 的 通信 原 语 与 第 5 章 描述 的 调用 类 型 是 相 适应 的 。 
例如 ，Amoeba[ Tanenbaum et al. 1990] 提供 了 do0peration、getRequest 和 sendReply 这 样 的 通信 原 语 。 
Amoeba, V 系统 和 Chorus 系统 都 提供 了 组 通信 原 语 。 在 内 核 中 加 入 相对 高 层 的 通信 功能 可 以 提高 效 
率 。 例 如 ， 如 果 一 个 中 间 件 在 UNIX 连接 (TCP) 套 接 字 上 提供 RMI， 那 么 客户 就 必须 为 每 次 远程 调用 
进行 两 次 通信 系统 调用 ( 套 接 字 的 write 和 read) 。 而 在 Amoeba 上 ， 它 只 需要 调用 一 次 doOperation。 用 
组 通信 更 能 节省 系统 调用 上 的 开销 。 

实际 上 ， 是 中 间 件 而 不 是 内 核 提 供 了 当今 系统 中 的 大 多 数 高 层 通信 方式 ， 包 括 RPC/RMI、 事 件 通 
信和 组 通信 。 在 用 户 级 上 开发 这 种 复杂 的 软件 系统 的 代码 比 在 内 核 上 开发 要 容易 。 开 发 者 通常 在 提供 
对 互联 网 标准 协议 访问 的 套 接 字 上 实现 中 间 件 一 一 经 常 使 用 有 连接 的 TCP 协议 ， 有 时 也 使 用 无 连接 的 
UDP 协议 。 使 用 套 接 字 的 主要 原因 是 考虑 到 可 移植 性 和 互 操作 性 : 中 间 件 需要 尽 可 能 地 在 多 种 操作 系 
统 之 上 运行 ,并且 像 UNIX 和 Windows 系列 这 样 的 操作 系统 通常 都 提供 了 类 似 的 套 接 字 API 以 便 访问 
TCP 和 UDP 协议 。 

尽管 广泛 使 用 的 是 由 公共 内 核 提 供 的 TCP 和 UDP 套 接 字 ， 但 在 一 些 试验 性 的 操作 系统 内 核 上 还 是 
进行 了 一 些 低 开销 的 通信 原 语 研究 。7. 5. 1 节 将 进一步 讨论 其 性 能 问题 。 

协议 和 开放 性 ”操作 系统 提供 标准 的 协议 ， 并 由 这 些 协议 实现 在 不 同 平台 上 的 中 间 件 之 间 的 互 操 
作 ， 这 是 对 操作 系统 主要 需求 之 一 。 在 20 世纪 80 E, 一 些 研 究 性 的 操作 系统 内 核 将 自己 的 网 络 协 
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议 与 RPC 交互 结合 起 来 ， 其 中 有 著名 的 Amoeba RPC [van Renesse et al. 1989]. VMTP [Cheriton 1986 | 
和 Sprite RPC [ Ousterhout et al. 1988], 。 然 而 ， 这 些 协议 并 没有 在 自身 研究 环境 之 外 被 广泛 应 用 。 相 反 ， 
Mach 3.0 和 Chorus 内 核 (也 包括 LA [Hartig et al. 1997]) 的 设计 者 们 决定 采用 完全 开放 的 网 络 协议 。 
这 些 内 核 只 提供 在 本 地 进程 之 间 的 消息 传递 机 制 ， 并 将 网 络 协议 的 处 理 留 给 在 内 核 上 运行 的 一 个 服务 
器 完成 。 

如 果 和 需要 每 天 都 访问 互联 网 ， 那 么 操作 系统 需要 为 几乎 所 有 的 联网 设备 提供 TCP 和 UDP 层 的 兼容 
性 。 操 作 系 统 也 要 求 中 间 件 能 利用 新 的 底层 协议 。 例 如 ， 用 户 希 望 在 不 升级 它 的 应 用 程序 的 情况 下 利 
用 像 红 外 和 射频 (radio frequency, RF) 传输 这 样 的 无 线 技术 时 ， 就 需要 集成 相应 的 协议 ,例如 红外 网 
络 使 用 的 IDA 和 RF 网 络 使 用 的 蓝牙 技术 或 IEEE 802. 11。 

协议 通常 被 安排 在 一 个 有 层次 的 栈 中 ( 见 第 3 章 ) 。 许 多 操作 系统 允许 新 的 层次 被 静态 地 集成 ， 而 
这 是 靠 加 入 像 FEDA 这 样 的 永久 安装 的 协议 “驱动 器 ”作为 其 新 的 一 层 来 完成 的 。 相 反 ， 动 态 协 议 合 成 
(dynamic protocol composition) 是 一 项 使 协议 栈 能 灵活 合成 新 的 层次 的 技术 ， 其 合成 可 以 满足 特定 应 用 
的 需要 ， 并 且 ， 能 够 利用 可 用 的 物理 层 ， 只 要 已 知 平台 现 有 的 连接 。 例 如 ， 当 用 户 在 路 上 时 ， 运 行 在 
笔记 本 电脑 上 的 Web 浏览 器 可 以 利用 广 域 无 线 连接 ， 而 当 用 户 返 回 办 公 室 时 ， 可 以 利用 更 快 的 以 太 网 
连接 。 

动态 协议 合成 的 另 一 个 例子 是 用 户 可 以 在 无 线 网 络 层 上 使 用 用 户 定制 的 请 求 - 应 答 协 议 来 减少 往 
返 延 迟 。 已 经 证 实 ,标准 的 TCP 协议 实现 不 能 在 无 线 网 络 介质 上 很 好 地 工作 [Balakrishnan et 
al. 1996] ， 因 为 相对 于 有 线 介 质 ， 在 无 线 介 质 上 可 能 会 有 更 高 的 委 包 率 。 原 则 上 ， 一 个 像 HTTP 这 样 的 
请 求 - 应 答 协 议 只 有 通过 直接 使 用 无 线 传输 层 ， 而 不 是 用 中 间 的 TCP 层 ， 才 能 使 无 线 连接 的 结 点 之 间 
的 工作 更 有 效 。 

对 协议 合成 的 支持 出 现在 UNIX 流 设施 [Ritchie 1984], 、Horus[ van Renesse et al. 1995] 和 x- kernel 
[ Hutchinson and Peterson 1991] 的 设计 中 。 最 近 的 一 个 动态 协议 合成 例子 是 在 Cactus 系统 基础 上 构造 
一 个 可 配置 的 传输 协议 CTP[ Bridges et al. 2007]. 


7.5.1 调用 性 能 


在 分 布 式 系统 设计 中 ， 调 用 性 能 是 一 个 非常 关键 的 因素 。 如 果 设 计 者 在 地 址 空间 之 间 分 离 的 功能 越 
多 , 使 用 的 远程 调用 也 就 越 多 。 客 户 和 服务 器 在 其 生命 期 内 可 能 会 执行 上 百 万 个 与 调用 有 关 的 操作 ， 这 
样 应 该 有 一 小 部 分 时 间 应 计 人 调用 开销 。 网 络 技术 一 直 在 发 展 ， 但 调用 时 间 并 没有 因 网 络 带 宽 的 增加 而 
成 比例 地 减少 。 本 节 将 解释 为 什么 在 调用 时 间 . 上 软件 的 开销 会 比 网 络 的 开销 大 得 多 ， 至 少 在 局 域 网 或 企 
业内 部 网 上 是 如 此 。 这 与 在 互联 网 上 的 远程 调用 (例如 获得 一 个 Web 资源 ) 完全 相反 。 在 互联 网 上 ， 
网 络 延 迟 通 常 变 化 很 大 ， 平 均值 也 很 高 ， 带 宽 通 常 很 低 ， 服 务 器 的 负载 主要 花费 在 对 每 一 个 请 求 的 处 
理 上 。 以 延迟 为 例 ， 按 照 Bridges [2007] 的 报告 ， 互 联网 上 路 US 地 理 区 域 的 两 台 计 算 机 之 间 最 小 
的 UDP 消息 回转 平均 需要 花 大 约 400 毫秒 ， 而 相同 的 计算 机 通过 一 个 以 太 网 ， 仅 需要 花 0. 1 毫秒 。 

RPC 和 RMI 的 实现 问题 已 经 成 为 研究 的 主题 ， 因 为 通用 的 客户 - 服务 器 处 理 广泛 采用 了 这 种 机 
制 。 许 多 研究 已 经 涉及 在 网 络 上 的 调用 ， 并 且 特 别 研究 了 如 何 更 好 地 利用 高 性 能 网 络 来 实现 调用 机 制 
[ Hutchinson et al. 1989 ，van Renesse et al. 1989, Schroeder and Burrows 1990, Johnson and Zwaenepoel 
1993, von Eicken et al. 1995, Gokhale and Schmidt 1996], “4%, 也 有 一 些 研究 注重 于 在 同一 计算 机 不 
同 进程 之 间 的 RPC[ Bershad et al. 1990, Bershad et al. 1991], 

调用 开销 ”调用 一 个 传统 过 程 或 方法 ， 进 行 一 次 系统 调用 ， 发 送 一 条 消息 ， 进 行 远 程 过 程 调用 和 
远程 方法 调用 ， 这 些 都 是 调用 机 制 的 例子 。 每 一 种 调用 机 制 都 导致 在 调用 过 程 和 对 象 之 外 的 代码 被 执 
行 。 一 般 每 次 调用 都 涉及 将 参数 传递 给 调用 代码 的 通信 ， 以 及 将 结果 返回 给 调用 者 的 通信 。 调 用 机 制 
可 以 是 同步 的 (例如 传统 调用 和 远 过 程 调用 ) ， 也 可 以 是 异步 的 。 

除了 是 否 异步 ， 对 调用 机 制 的 性 能 影响 最 大 的 因素 为 是 否 涉及 域 转换 (也 就 是 说 ， 它 是 否 跨越 了 
一 个 地 址 空间 ) 、 它 是 否 涉 及 网 络 上 通信 ， 以 及 它 是 否 涉及 线程 调度 和 切换 。 图 7-11 表示 了 一 个 系统 
调用 、 在 同一 计算 机 上 不 同 进程 之 间 的 远程 调用 和 在 分 布 式 系统 上 不 同 结 点 的 计算 机 进程 之 间 的 远程 
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调用 三 个 例子 。 
a) 系统 调用 


线程 一 ~、- 一 > 通过 陷阱 指令 控制 转换 


-一 ”< 一 -通过 特权 指令 控制 转换 


RA 
保护 域 边界 


b) RPC/RMI (在 一 个 计算 机 内 》) 





内 核 1 内 核 2 
图 7-11 在 地 址 空间 之 间 的 调用 


在 网 络 上 的 调用 一 个 空 的 RPC (类 似 的 ， 一 个 空 的 RM) 是 指 一 个 没有 参数 、 执 行 一 个 空 的 过 
程 、 也 不 返回 值 的 RPC。 执 行 空 RPC 所 交换 的 消息 不 包括 任何 用 户 数据 ， 只 包含 很 少 的 系统 数据 。 现 
在 ， 通 过 LAN 连接 的 用 户 进程 间 进行 一 次 空 的 RPC， 其 时 间 开 销 在 儿 十 毫秒 这 个 数量 级 内 (参见 
Bridges [2007] 度量 的 、 在 100Mbps 以 太 网 上 的 两 台 2. 2GHz Pentium 3 Xeon PC 500MHz 的 PC 之 间 
的 UDP 返回 时 间 )。 而 一 个 传统 的 空 过 程 调用 只 需 小 于 1 微 秒 的 时 间 。 假 设 这 一 空 的 RPC 调用 总 共有 
100 字 节 的 数据 需要 传输 。 在 带宽 为 100Mbps 的 网 络 上 ， 这 些 数据 总 共 的 传输 时 间 大 约 是 0.01ms。 最 
然 ， 大 部 分 观察 到 的 延迟 (客户 调用 RPC 总 共 花 费 的 时 间 )， 是 来 源 于 操作 系统 内 核 代码 和 用 户 级 
RPC 执行 代码 的 执行 时 间 开 销 。 

SMA (RPC, RMD 的 开销 是 非常 重要 的 ， 因 为 它 度量 了 一 个 固定 的 开销 ， 也 就 是 延迟 。 随 着 
参数 和 结果 数据 量 的 增加 ， 调 用 开销 也 会 增加 ， 但 在 许多 情况 中 ， 空 调用 的 延迟 比 其 他 类 型 的 延迟 要 
大 得 多 。 RE 

假设 一 个 RPC 从 服务 器 上 获得 指定 数量 的 数据 。 
它 包含 一 个 整数 型 请 求 参 数 ， 用 于 指明 要 返回 的 数据 
量 的 大 小 。 在 返回 结果 时 ， 它 包括 两 个 返回 参数 ,一 -一 一 
个 整数 型 参数 表示 调用 是 成 功 还 是 失败 〈 客 户 可 能 提 一 一 
供 的 是 一 个 无 效 的 数据 量 大 小 ) 。 在 调用 成 功 的 情况 
下 ， 另 一 参数 为 从 服务 器 返回 的 一 个 字 节 数组 。 








L D >。 被 请 求 的 数据 

图 7-12 示意 性 地 表示 了 被 请 求 的 数据 量 与 客户 | l 大 小 〈 字 节 ) 
延迟 的 关系 。 在 数据 量 的 大 小 达到 一 个 同 网 络 数据 包 0 1000 f 2000 
Jy MBM BZA, HR APMED MEA ER 数据 包 大 小 


正比 。 超 过 这 一 阐 值 之 后 ， 为 了 传输 额外 的 数据 ， 系 图 7-12 RPC 延迟 与 参数 大 小 
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统 至 少 要 多 传送 一 个 额外 的 包 。 根 据 协 议 ， 为 了 确认 这 个 额外 的 包 ， 可 能 还 需要 传 一 个 数据 包 。 每 一 
次 需要 多 传送 一 个 包 时 ,图 上 便 会 出 现 一 个 跳跃 。 

在 RPC 的 实现 中 ， 延 迟 并 不 是 被 关注 的 唯一 数据 ， 当 数据 成 批 传输 时 ，RPC 带宽 〈 或 吞吐 量 ) 也 
会 受到 关注 。 它 表示 在 单个 RPC 内 的 不 同 计算 机 间 的 数据 传输 率 。 从 图 7-12 中 我 们 可 以 知道 : 当 固定 
处 理 的 时 间 开 销 占 总 开销 的 绝 大 部 分 时 ， 对 于 少量 的 数据 ，RPC 的 带宽 相对 较 低 。 随 着 数据 量 的 增加 ， 
带宽 会 增加 ， 这 是 因为 那些 固定 处 理 的 开销 变 得 相对 比较 小 。 

回想 一 下 ， 一 个 RPC 包括 如 下 步骤 (RMI 也 包含 类 似 的 步骤 ) : 

。 一 个 客户 存根 程序 将 调用 参数 编码 为 消息 ， 并 将 请 求 消息 发 送出 去 ， 然 后 接收 应 答 消 息 ， 并 将 

其 解码 。 
。 在 服务 器 端 ， 一 个 工作 线程 接收 到 达 的 请 求 ， 或 者 由 一 个 VO 线程 负责 接收 请 求 ， 并 将 其 传递 
给 工作 线程 。 不 论 在 哪 种 情况 下 ， 都 要 调用 合适 的 服务 器 存根 程序 。 

。 服务 器 存根 程序 将 请 求 消 息 解码 ， 调 用 指定 的 过 程 并 将 应 答 编码 并 发 送出 去 。 

下 面 是 除 网 络 传输 时 间 之 外 造成 远程 调用 延迟 的 主要 因素 : 

编码 : 编码 和 解码 涉及 拷贝 和 转换 数据 ， 当 数据 量 增加 时 ， 它 们 会 成 为 一 个 显著 的 时 间 开 销 。 

KHAN: 即使 在 编码 之 后 ， 在 一 个 RPC 过 程 中 ， 消 息 数据 也 可 能 会 被 多 次 拷贝 ; 

。 跨越 用 户 - 内 核 边 界 时 ， 在 客户 或 服务 器 地 址 空间 和 内 核 缓冲 区 之 间 。 

e 跨越 每 个 协议 层 时 (例如 ，RPC/UDP/IP/ 以 太 网 ) 。 

© 在 网 络 接口 和 内 核 缓 冲 区 之 间 。 

网 络 接口 和 主 存 之 间 的 传输 通常 是 由 直接 内 存 访问 (Direct Memory Access, DMA) 来 处 理 的 。 其 
他 拷贝 则 是 由 处 理 器 处 理 的 。 

包 初 始 化 ; 它 涉及 初始 化 协议 头 部 和 协议 尾部 ， 包 括 校 验 和 。 它 的 开销 在 某 种 程度 上 与 需 传输 数 
据 量 的 大 小 成 正比 。 

线程 调度 和 上 下 文 切 换 ; 下 列 情况 会 发 生 延 迟 。 

. 当 存 根 程序 调用 内 核 的 通信 操作 时 ， 在 一 个 RPC 过 程 中 会 产生 几 个 系统 调用 〈 即 上 下 文 切换 ) 。 

© 调度 一 个 或 多 个 服务 器 线程 。 

。 如 果 操 作 系统 采用 单独 的 网 络 管理 器 进程， 那么 每 “次 Send 操作 会 涉及 线程 之 间 的 上 下 文 切换 。 

确认 等 待 : RPC 协议 的 选择 会 影响 延迟 ， 特 别 是 当 有 大 量 数据 需要 传输 的 时 候 。 

小 心 设计 操作 系统 有 助 于 减少 这 些 开 销 。 在 www. cdk5. net/oss 上 可 以 找到 Firefly RPC 设计 的 实例 
研究 ， 其 中 给 出 了 一 些 可 用 技术 的 细节 ， 还 包括 了 在 中 间 件 实现 中 可 用 的 技术 。 

我 们 已 经 介绍 过 了 一 些 操作 系统 是 怎样 支持 线程 以 减少 多 线程 开销 的 。 操 作 系 统 通过 内 存 共享 机 
制 也 可 以 减少 内 存 拷贝 开销 。 

内 存 共享 〈7. 4 节 介 绍 的 ) 共享 区 域 可 以 用 于 用 户 进程 和 内 核 之 间或 者 在 用 户 进程 之 间 的 快速 
通信 。 通 过 在 共享 区 域 中 写 数 据 和 读数 据 可 以 实现 数据 通信 。 这 样 可 以 实现 高 效 数据 传输 ， 不 需要 从 
内 核 地 址 空间 或 向 内 核 地 址 空间 拷贝 数据 。 但 系统 调用 和 软件 中 断 可 能 需要 同步 ， 例 如 ， 当 用 户 进程 
写 完 应 该 被 传输 的 数据 时 ， 或 者 当 内 核 写 完 用 户 进程 需要 使 用 的 数据 时 。 当 然 ， 只 有 当 共 享 区 域 带 来 
的 优点 大 于 建立 它 所 带 来 的 开销 时 ， 使 用 共享 区 域 才 是 合理 的 。 

即使 使 用 共享 区 域 ， 内 核 仍 然 需要 从 其 缓冲 区 向 网 络 接口 复制 数据 。U- Net 体系 结构 [von Eicken 
et al. 1995] 甚至 允许 用 户 级 的 代码 直接 访问 网 络 接口 ， 因 此 使 用 户 级 的 代码 可 以 不 经 任何 复制 就 能 把 
数据 传输 到 网 络 。 

协议 的 选择 ”在 TCP 协议 上 进行 请 求 - 应答 交 互 时 客户 所 经 历 的 延迟 未 必 比 运行 在 UDP 上 的 长 ， 
事实 上 有 些 时 候 要 短 一 些 ， 特 别 是 传输 大 消息 的 时 候 。 然 而 ， 在 像 TCP 这 样 的 协议 之 上 实现 请 求 -应 
等 交 互 必须 要 小 心 ， 因 为 这 些 协 议 并 不 是 专 为 此 目的 而 设计 的 。 特 别 是 TCP 的 缓冲 机 制 会 妨害 其 性 
能 ， 它 的 连接 开销 与 UDP 相 比 也 处 于 劣势 ， 除 非 在 一 个 连接 上 需要 传输 的 数据 量 相当 大 ， 这 样 才 可 以 
忽略 连接 单个 请 求 的 开销 。 

在 Web 调用 中 ，TCP 的 连接 开销 特别 明显 ， 这 是 因为 现在 相对 很 少 用 的 HTTP 1. 0 为 每 一 个 调用 
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建立 一 个 独立 的 TCP 连接 。 在 建立 连接 时 ， 客 户 的 浏览 器 被 延迟 。 而 且 ，TCP 的 慢 启 动 算法 有 延迟 
HTTP 数据 传输 的 效果 ， 而 很 多 情况 下 这 是 不 必要 的 。TCP 慢 启 动 算法 ， 在 面 对 可 能 的 网 络 阻塞 时 ， 采 
用 一 种 悲观 操作 ， 即 在 接收 到 确认 前 ， 先 向 网 络 传输 一 个 小 窗口 的 数据 。Nielson [1997] 讨论 了 现 
在 广泛 使 用 的 HTTP 1. 1 怎样 使 用 持久 连接 ， 持久 连接 能 在 几 个 调用 过 程 内 持续 存在 。 只 要 对 同一 Web 
服务 器 有 多 个 调用 ， 初 始 的 连接 开销 就 被 分 摊 在 儿 个 调用 过 程 中 。 这 是 很 有 可 能 的 ， 因 为 用 户 经 常 从 
同一 网 址 获得 多 个 页 面 ， 而 每 个 页 面 可 能 包含 多 个 图 像 。 

Nielson 等 也 发 现 ， 修 改 操 作 系 统 歌 认 的 缓冲 行为 对 调用 延迟 有 显著 的 影响 。 比 较 好 的 机 制 是 收集 
几 个 比较 小 的 信息 ， 然 后 将 它们 一 起 发 送 ， 而 不 是 分 别 用 独立 的 包 将 其 发 送出 去 ， 因 为 每 一 个 包 都 会 
产生 上 面 所 描述 的 延迟 。 由 于 上 面 的 原因 ， 操 作 系统 并 不 需要 在 每 一 次 套 接 字 的 write() 调 用 后 立即 将 
数据 分 发 到 网 络 上 。 操 作 系 统 在 默认 情况 下 应 该 把 等 待 缓冲 区 满 或 者 超时 作为 将 数据 在 网 络 上 分 发 的 
标准 ， 它 希望 有 更 多 的 数据 将 到 达 缓 冲 区 。 . 

Nielson 等 发 现 ,在 HTTP 1.1 中 默认 的 操作 系统 缓冲 行为 会 因为 超时 而 产生 明显 的 不 必要 的 延迟 。 
为 了 去 除 这 种 延迟 ， 他 们 改变 了 内 核 的 TCP 设置 ， 并 且 在 HTP 请 求 边界 上 强制 进行 数据 分 发 。 这 是 
一 个 很 好 的 例子 ， 说 明了 操作 系统 的 实现 策略 是 如 何 帮助 或 阻碍 中 间 件 的 。 

在 一 个 计算 机 内 的 调用 “Bershad 等 [1990] 进行 的 一 项 研究 表明 ， 在 客户 - 服务 器 环境 中 ， 大 多 
数 跨 地 址 空间 的 调用 并 不 像 想 象 的 那样 发 生 在 计算 机 之 间 ， 而 是 发 生 在 计算 机 内 部 。 将 服务 功能 放置 
在 用 户 级 服务 器 中 的 趋势 意味 着 有 更 多 的 调用 是 针对 本 地 进程 的 。 特 别 是 在 客户 所 需要 的 数据 可 能 在 
本 地 服务 器 上 的 情况 。 将 一 个 计算 机 内 的 RPC 开销 作为 系统 性 能 的 一 个 参数 已 经 变 得 越 来 越 重 要 。 这 
些 都 表明 ， 计 算 机 内 的 本 地 调用 应 该 被 优化 。 

图 7-11 说 明 除了 底层 的 消息 传递 在 本 地 进行 之 外 ， 在 一 个 计算 机 内 的 跨 地 址 空间 的 调用 和 在 计算 
机 间 的 调用 几乎 完全 一 样 。 实 际 上 ， 这 是 一 种 经 常 实现 的 模型 。Bershad 等 [1990] 为 在 同一 机 器 上 两 
个 进程 之 间 的 调用 开发 了 一 种 更 有 效 的 机 制 ， 叫 做 轻 量 级 RPC (LightweightRPC，LRPC) 。LRPC 的 设 
计 基 于 对 数据 拷贝 和 线程 调度 的 优化 。 

首先 ， 他 们 提出 利用 共享 内 存 区 域 为 客户 - 服务 器 提供 有 效 的 通信 ， 这 里 在 服务 器 和 每 个 本 地 
客户 之 间 使 用 不 同 (私有 ) 的 区 域 。 这 样 一 个 区 域 包含 一 个 或 多 个 A 栈 〈( 见 图 7-13)。 在 这 种 设计 
中 ， 客 户 和 服务 器 可 以 通过 A 栈 传递 参数 和 返回 结果 ， 而 不 必 涉 及 在 内 核 和 用 户 地 址 空间 之 间 的 
RPC 参数 的 拷贝 。 客 户 和 服务 器 存根 程序 采用 同样 的 栈 。 在 LRPC 中 ， 参 数 只 找 贝 一 次 ， 即 当 它 被 
编码 后 进入 A 栈 时 。 而 在 一 个 等 价 的 RPC 中 ， 数 据 被 拷贝 四 次 ， 分 别 为 从 客户 存根 程序 的 栈 中 拷贝 
到 消息 中 ; 从 消息 拷贝 到 内 核 缓冲 区 ; 从 内 核 缓 冲 区 复制 到 服务 器 消息 中 ; 从 服务 器 消息 找 贝 到 服 
务 器 存根 程序 的 栈 中 。 在 一 个 共享 区 域 中 可 能 有 数 个 A 栈 ， 因 为 在 同一 时 间 同 一 客户 上 会 有 多 个 线 
程 调用 服务 器 。 


客户 服务 器 
AR 
1. 复 制 参数 / 4. 执 行 过 程 并 复制 结果 


用 户 层 / pree a N 


2. 陷 入 到 内 核 3. 上 SIR CBA) 


图 7-13 一 个 轻 量 级 远程 过 程 调用 


Bershad 等 也 考虑 了 线程 调度 的 开销 。 通 过 比较 图 7-11 中 的 系统 调用 和 远程 过 程 调用 ， 可 以 发 
现 ， 当 发 生 一 个 系统 调用 时 ， 大 多 数 内 核 并 不 调度 一 个 新 的 线程 来 处 理 调用 ， 而 是 在 调用 线程 中 进 
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行 一 次 上 下 文 切 换 ， 这 样 它 便 可 以 处 理 系 统 调 用 。 在 一 个 RPC 中 ,一 个 远程 过 程 可 能 与 客户 的 线程 
在 不 同 的 计算 机 上 ， 这 样 服务 器 上 的 一 个 线程 必须 被 调度 来 执行 被 调用 的 过 程 。 然 而 ， 若 服务 器 和 
客户 在 同一 台 机 器 上 ， 客 户 线程 调用 在 服务 器 地 址 空间 内 的 过 程 〈 否 则 ， 它 可 能 被 阻塞 ) ， 其 执行 效 
率 可 能 更 高 。 

在 这 种 情况 下 ， 服 务 器 程序 与 以 前 描述 过 的 服务 器 有 所 不 同 。 服 务 器 输出 一 系列 过 程 以 备 调用 ， 
而 不 是 建立 一 个 或 多 个 线程 来 监听 端口 是 否 有 调用 请 求 。 只 要 本 地 进程 中 的 线程 开始 调用 服务 器 输出 
的 过 程 ， 它 们 就 可 进入 服务 器 的 执行 环境 。 需 要 调用 服务 器 操作 的 客户 必须 首先 绑 定 服务 器 的 接口 
(没有 在 图 中 显示 ) 。 上 述 过 程 是 通过 内 核 通知 服务 器 的 。 当 服务 器 响应 内 核 并 提供 一 系列 允许 访问 的 
过 程 地 址 时 ， 内 核 便 允 许 客户 调用 服务 器 的 操作 。 

图 7-13 显示 了 一 个 调用 。 客 户 端 线程 道 过 首先 陷入 内 核 来 进入 服务 器 的 执行 环境 。 内 核 检查 其 
合法 性 并 只 允许 上 下 文 切换 到 合法 的 服务 器 过 程 上 。 如 果 它 是 合法 的 ， 内 核 便 将 线程 的 上 下 文 转换 
到 服务 器 执行 环境 中 被 调用 的 过 程 上 。 当 此 服务 器 中 的 过 程 运行 结束 并 返回 后 ， 线 程 便 回 到 内 核 ， 
内 核 将 线程 转换 回 客户 执行 环境 。 需 要 注意 的 是 ， 客户 和 服务 器 采用 存根 程序 来 对 应 用 程序 员 隐 茂 
其 细节 。 

对 LRPC 的 讨论 只 楼 有 足够 的 调用 来 抵消 内 存 管理 的 开销 ， 在 本 机 上 LRPC H RPC 的 效率 更 高 
这 一 点 是 毋庸 置疑 的 。Bershad 等 【1990] 统计 得 到 LRPC 的 延迟 比 本 地 RPC 的 延迟 小 3 信 。 

Bershad 的 LRPC 实现 并 没有 牺牲 位 置 透明 性 。 一 个 客户 存根 程序 在 绑 定 时 检查 一 个 用 1 比特 表示 
的 设置 ， 判 断 服务 器 是 在 本 地 还 是 在 远 端 ， 然 后 分 别 选择 采用 LRPC 或 RPC 来 进行 处 理 。 应 用 程序 并 
不 知道 使 用 的 是 LRPC 还 是 RPC。 然 而 ， 当 一 个 资源 从 本 地 服务 器 转移 到 远程 服务 器 上 或 反之 ， 则 迁 
移 透 明 性 将 很 难 实现 ， 这 是 因为 需要 改变 调用 机 制 。 

在 随后 的 工作 中 ，Bershad 等 [1991] 描述 了 几 种 改进 性 能 的 方法 ， 主 要 适用 于 多 处 理 器 操作 。 其 
改进 主要 注重 于 避免 陷 人 内 核 和 在 调度 进程 时 避免 不 必要 的 域 转换 。 例 如 ， 当 一 个 客户 线程 试图 调用 
服务 器 过 程 时 ， 如 果 在 服务 器 的 内 存 管理 上 下 文中 有 一 个 处 理 器 是 空闲 的 ， 那 么 线程 应 该 被 转移 到 此 
处 理 器 上 。 这 种 方式 避免 了 域 转换 ， 同 时 ， 客 户 的 处 理 器 可 以 被 客户 的 其 他 线程 重用 。 这 些 改 进 涉及 
两 层 〈 用 户 和 内 核 ) 线程 调度 的 实现 〈 见 7.4 节 )。 


7. 5.2 异步 操作 


我 们 已 经 讨论 了 操作 系统 如 何 帮助 中 间 件 层 来 提供 有 效 的 远程 调用 机 制 。 但 是 ， 我 们 也 观察 到 ， 
在 互联 网 环境 中 相对 高 的 延迟 、 低 的 带宽 和 高 的 服务 器 负载 的 影响 可 能 抵消 操作 系统 提供 的 好 处 。 我 
们 还 可 以 算 上 网 络 的 断 链 和 重新 连接 的 开销 ， 网 络 的 汤 链 和 重新 连接 被 认为 是 造成 高 延迟 通信 的 原因 。 
用 户 的 移动 计算 机 并 不 是 一 直 都 连接 在 网 络 上 的 。 即 使 使 用 广 域 无 线 访问 技术 例如， 使 用 蜂窝 通 
信 ) ， 它 们 也 可 能 随时 断 链 ， 例 如 ， 当 他 们 乘坐 的 火车 进入 了 隧道 。 

异步 操作 是 应 付 高 延迟 的 一 种 常用 技术 。 它 在 两 种 编程 模型 中 出 现 : 并 发 调用 和 异步 调用 。 这 些 
模型 主要 出 现在 中 间 件 领域 ， 而 不 是 出 现在 操作 系统 内 核 设计 中 。 但 当 我 们 讨论 调用 性 能 时 ， 还 是 应 
该 考虑 到 异步 操作 的 作用 。 

使 调用 并 发 执行 ”在 第 一 个 模型 中 ， 中 间 件 只 提供 阻塞 型 调用 ， 但 应 用 程序 产生 多 个 线程 来 并 发 
执行 阻塞 型 调用 。 

Web 浏览 器 是 这 种 应 用 一 个 很 好 的 例子 。 一 个 Web 页 面 通常 包含 几 个 图 像 也 可 以 包含 很 多 图 
像 。 浏 览 器 不 需要 按 特 定 的 顺序 来 获得 这 些 图 像 ， 因 此 它 可 以 一 次 发 出 几 个 并 发 的 请 求 。 在 这 种 方式 
下 ,获得 所 有 图 像 的 时 间 通 常 比 用 串 行 请 求 所 花 的 时 间 少 。 通 常情 况 下 ,不仅 总 通信 延 述 会 减少 ， 浏 
览 器 也 可 以 将 通信 和 图 像 绘制 并 行 执行 。 

图 7-14 表示 了 这 种 在 单 处 理 器 机 器 上 的 一 个 客户 和 一 个 服务 器 间 交 错 调用 (如 HTIP 请 求 ) 的 潜 
在 的 好 处 。 在 串 行 的 情况 下 ， 客 户 将 参数 编码 并 调用 Send 操作 ， 然 后 等 待 服务 器 方 应答 的 到 达 。 服 务 
器 执行 Receive 操作 ， 进 行 解码 并 处 理 结果 。 在 此 之 后 ， 客 户 才能 执行 第 二 个 调用 。 

在 并 发 情况 下 ， 第 一 个 客户 线程 将 参数 编码 并 调用 Send 操作 。 然 后 ， 第 二 个 线程 立即 执行 第 二 个 
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调用 。 每 一 个 线程 等 待 接收 它 的 调用 结果 。 如 图 7-14 所 示 ， 并 发 调用 的 总 时 间 一 般 低 于 串 行 调用 。 类 
似 地 ， 当 客户 线程 对 多 个 服务 器 发 生 并 发 请 求 时 也 能 减少 总 调用 时 间 。 如 果 客 户 在 多 处 理 器 上 执行 ， 
则 可 能 获得 更 大 的 吞吐 量 ， 这 是 因为 两 个 线程 的 处 理 可 以 并 行进 行 。 














品行 调用 并 发 调用 
处 理 参数 处 理 参数 
编码 编码 
pah A T 
接收 ; 接收 
解码 Be 解码 
执行 请 求 RIOR 
i 
理 结 解码 
ie 处 理 结果 发 送 
sit 
码 
接收 。 处 理 结果 时 间 
解码 
执行 请 求 
接收 编码 
解码 发 送 
处 理 结果 
客户 服务 器 客户 服务 器 


图 7-14 串 行 调用 和 并 发 调用 的 时 间 


回 到 HTTP 的 例子 ， 前 面 所 介绍 的 Nielson 等 [1997] 也 研究 了 在 持久 连接 上 并 发 交错 的 HTTP 1.1 
调用 (他 们 称 为 流水 线 ) 的 结果 。 他 们 发 现 ， 只 要 操作 系统 为 刷新 缓冲 区 提供 合适 的 接口 以 覆盖 默认 
的 TCP 行为 ， 流 水 线 就 可 以 减少 网 络 流量 并 能 提高 客户 性 能 。 

异步 调用 “异步 调用 是 对 调用 者 调用 的 一 次 异步 执行 。 也 就 是 说 ， 调 用 者 进行 的 是 非 阻 塞 调用 ， 
只 要 创建 了 调用 请 求 信息 并 准备 发 送 ， 调 用 便 结 束 了 。 

有 些 时 候 ， 客 户 不 需要 任何 回复 〈 除 了 需要 故障 信息 ， 如 目标 主机 连接 不 上 等 ) ， 例 如 ，COR- 
BA 单 向 调用 包含 或 许 语义 。 和 否则， 客户 使 用 单独 的 调用 来 收集 调用 结果 。 例 如 ，Mercury 通信 系统 
[ Liskov and Shrira 1988] 支持 异步 调用 。 一 个 异步 操作 返回 一 个 叫做 promise 的 对 象 。 最 后 ， 当 调用 
成 功 或 注定 要 失败 时 ，Mereury 系统 将 系统 状态 和 返回 值 放 在 promise 里 。 调 用 者 使 用 claim 操作 从 
promise 中 获得 结果 。claim 操作 一 直 被 阻塞 到 promise 准备 好 ， 然 后 ， 由 promise 返回 调用 的 结果 或 异 
常 信息 。ready 操作 可 以 不 阻塞 地 测试 promise 一 一 它 根 据 promise 的 状态 为 就 绪 或 阻塞 状态 分 别 返回 
true 或 false。 

持久 异步 调用 & Mercury 调用 和 CORBA 单 向 调用 这 种 传统 异步 调用 机 制 是 在 TCP 流 上 实现 的 。 
当 TCP 连接 中 断 时 ， 例 如 网 络 连接 中 断 或 目标 主机 册 溃 ， 调 用 就 会 失败 。 

断 链 操作 使 得 一 种 改进 的 异步 调用 模型 ， 称 为 持久 异步 调用 〈persistent asynchronous invocation) , 
变 得 更 加 有 意义 。 就 所 提供 的 编程 操作 而 言 ， 该 模型 与 Mercury 相似 ， 它 们 的 不 同 在 故障 语义 上 。 一 
个 传统 的 调用 机 制 ( 同 步 或 异步 ) 被 设计 成 在 超过 给 定 的 超时 时 间 后 就 会 失败 。 但 是 这 些 短期 的 超时 
经 常 不 能 适应 连接 中 断 或 长 延迟 的 情况 。 

持久 异步 调用 系统 试图 无 限 地 执行 调用 ， 直 到 它 知道 调用 成 功 或 失败 ， 或 者 应 用 程序 取消 调用 为 
止 。 其 中 一 个 例子 是 用 于 移动 信息 访问 的 Rover 工具 集中 的 QRPC (排队 的 RPC) [Joseph et al. 1997]. 
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顾名思义 ， 当 没有 网 络 连 接 时 ，QRPC 将 调用 请 求 排队 放 在 固定 的 日 志 中 ， 当 网 络 连 接 建 立时 ， 
它 调度 并 发 送 请 求 给 服务 器 。 类 似 地 ， 它 将 服务 器 的 返回 结果 排队 并 放置 在 我 们 所 认为 的 客户 调用 
“邮箱 ”中 ， 直 到 客户 重新 连接 服务 器 并 收集 结果 为 止 。 请 求 和 返回 结果 在 排队 时 可 能 被 压缩 ， 这 样 
它们 可 以 在 低 带 宽 的 网 络 上 传输 。 

QRPC 可 以 利用 不 同 的 通信 链 路 发 送 调用 请 求 和 接收 应 答 。 例 如 ， 当 用 户 在 路 上 时 ， 其 调用 请 求 
可 以 通过 蜂窝 数据 链 路 发 送 ， 但 当 用 户 将 他 的 设备 连接 在 企业 内 部 互联 网 上 时 ， 其 调用 应 答 可 能 通过 
以 太 网 发 送 。 原 则 上 ， 调 用 系统 可 以 在 靠近 用 户 的 下 一 个 可 能 的 接 和 人 点 存储 调用 结果 。 

客户 网 络 调度 器 可 以 依照 不 同 的 标准 操作 ， 而 没有 必要 依照 FIFO 的 顺序 来 发 送 调用 。 应 用 程序 可 
以 为 单个 调用 赋予 优先 级 。 当 有 可 利用 的 连接 时 ，QRPC 评估 其 带宽 和 使 用 它 的 开销 。 它 首先 分 发 高 
优先 级 的 调用 请 求 ， 但 在 连接 速度 很 慢 并 且 开 销 大 【例如 广 域 无 线 连接 ) 的 情况 下 ， 它 不 会 发 送 所 有 
的 调用 一 一 它 假设 在 不 久 的 将 来 有 像 以 太 网 这 样 更 快 、 更 廉价 的 网 络 连接 可 被 利用 。 类 似 地 ， 当 QR- 
PC 从 低 带宽 连接 的 邮箱 上 获取 调用 结果 时 ， 它 也 会 考虑 优先 级 。 

在 用 异步 调用 系统 (持久 或 其 他 ) 的 编程 中 有 如 下 问题 : 在 调用 结果 未 知 的 情况 下 ， 用 户 如 何在 
客户 设备 上 继续 使 用 其 应 用 程序 。 例 如 ， 用 户 可 能 想 知道 是 否 成 功 地 更 新 了 共享 文档 中 的 一 个 段落 ， 
还 是 另 一 个 用 户 同 时 进行 了 一 次 有 冲突 的 更 新 ， 如 删除 了 这 一 段落 。 第 18 章 将 讨论 这 一 问题 。 


7.6 操作 系统 的 体系 结构 


本 节 将 查看 适用 于 分 布 式 系统 的 内 核 结构 。 我 们 采用 第 一 原则 方法 ， 从 开放 性 的 需求 出 发 ， 查 看 
已 有 的 主要 的 内 核 体系 结构 。 

一 个 开放 的 分 布 式 系统 应 该 达到 以 下 要 求 : 

© 在 每 台 计 算 机 上 仅 运 行 那些 在 系统 体系 结构 中 承担 特定 角色 的 系统 软件 。 对 系统 软件 的 需求 可 

能 会 不 尽 相 同 ， 例 如， 移动 电话 和 服务 器 计算 机 对 系统 软件 的 需求 就 会 不 同 。 而 载 人 多 余 的 模 
块 会 浪费 内 存 资源 。 

© 允许 实现 特定 服务 的 软件 (和 计算 机 ) 能 独立 于 其 他 部 分 而 被 更 换 。 

e 当 需 要 适应 不 同 用 户 或 应 用 时 ， 人 允许 提供 同一 服务 的 不 同 实现 。 

。 在 不 破坏 已 有 系统 的 一 致 性 的 情况 下 加 入 新 的 服务 。 

从 资源 管理 策略 中 分 离 固定 的 资源 管理 机 制 〈 它 随 着 应 用 程序 和 服务 的 不 同 而 不 同 ) 已 经 在 很 长 
一 段 时 间 内 成 为 操作 系统 设计 的 指导 原则 | Wulf et al. 1974] 。 例 如 ， 我 们 说 一 个 理想 的 调度 系统 应 提 
供 如 下 机 制 ， 该 机 制 既 要 使 一 个 像 视频 会 议 这 样 的 多 媒体 应 用 程序 能 满足 其 实时 需求 ， 也 要 支持 像 
Web 浏览 这 样 的 非 实 时 应 用 程序 。 

理想 情况 下 ， 内 核 应 该 只 提供 在 一 个 结 点 上 实现 通用 资源 管理 任务 的 最 基本 机 制 。 服 务 器 模块 应 
按 需 动态 装载 ， 以 便 为 当前 运行 的 应 用 实现 所 需 的 资源 管理 。 

整体 内 核 和 微 内 核 “内核 设计 有 两 个 宇 要 例子 : SAAR (monolithic) 方法 和 微 内 核 (microker- 
nel) 方法 。 这 两 种 设计 之 间 主 要 的 区 别 在 于 决定 哪些 功能 属于 内 核 和 哪些 功能 属于 服务 器 进程 ， 其 中 
服务 器 进程 可 以 在 运行 时 动态 载 人 到 内 核 上 。 尽 管 微 内 核 没 有 被 广泛 应 用 ,但 理解 它们 与 当前 典型 内 
核 相 比 的 优点 和 缺点 仍然 是 有 益 的 。 

UNIX 操作 系统 内 核 被 称 为 整体 内 核 《 见 下 面 的 定义 ) 。 这 一 名 称 说 明了 其 内 核 的 巨大 : 它 执行 所 
有 的 基本 操作 系统 功能 ， 其 代码 和 数据 量 达 到 上 兆 字 节 ， 并且 它 是 未 分 化 的 《undifferentiated ) BE 
以 非 模块 方式 编码 。 这 在 很 大 程度 上 导致 它 是 难于 管理 的 ， 因 为 为 变化 的 需求 改变 单个 软件 组 件 将 会 
很 困难 。Sprite 网 络 操作 系统 是 另 一 个 整体 内 核 的 例子 [Ousterhout et al. 1988 ] 。 一 个 整体 内 核 可 以 包 
含 在 其 地 址 空间 内 执行 的 若干 服务 进程 ， 其 中 包括 文件 服务 器 和 一 些 网 络 进 程 。 这 些 进 程 执行 的 代码 
是 标准 内 核 配 置 的 一 部 分 〈( 见 图 7-15)。 

相反 ， 在 微 内 核 的 设计 中 ， 内 核 只 提供 最 基本 的 抽象 ， 主 要 为 地 址 空间 ， 线 程 和 本 地 进程 间 通 信 。 
所 有 其 他 系统 服务 由 服务 器 提供 ， 这 些 服务 在 分 布 式 系统 需要 它们 的 时 候 才 动态 加 载 到 计算 机 上 ( 参 
见 图 7-15)。 客 户 使 用 内 核 提供 的 基于 消息 的 调用 机 制 来 访问 这 些 系统 服务 。 
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图 例 : 整体 内 核 微 内 核 


服务 器 :(。 ) 内 核 代码 和 数据 : 动态 加 载 的 服务 器 程序 : 


图 7-15 整体 内 核 和 微 内 核 





Wik Chambers 20th Century Dictionary 为 monolith 和 monolithic 给 出 了 如 下 定义 :monolith， 和 名 
词 ， 由 一 块 石头 构成 的 柱子 或 圆柱 ; 任何 整体 上 一 致 的 、 大 块 的 或 难 管理 的 事物 。Monolithic 形容 
词 ， 与 一 个 整体 相关 或 像 一 个 整体 ; 一 个 国家 或 一 个 组 织 机 构 等 ， 大 块 的 ， 并 且 无 差别 的 一 致 ， 因 


此 而 难于 管理 。 








我 们 在 前 面 说 过 ， 用 户 倾向 于 拒绝 不 能 运行 它们 应 用 程序 的 操作 系统 。 但 除了 扩展 性 之 外 ， 微 内 
核 设计 者 还 有 其 他 目标 : BR UNIX 这 样 的 标准 操作 系统 的 二 进 制 模 似 [ Armand et al. 1989, Golub et 
al. 1990, Härtig et al. 1997], 

图 7-16 给 出 了 微 内 核 (以 最 通用 的 形式 ) 在 整个 分 布 式 系统 中 的 位 置 。 其 中 ， 微 内 核 为 在 硬件 
层 与 包含 主要 系统 组 件 的 子 系统 层 之 间 的 一 层 。 如 果 主 要 设计 目标 是 性 能 而 不 是 可 移植 性 ， 那 么 中 
间 件 可 以 直接 使 用 微 内 核 的 设施 。 否 则 ， 它 使 用 语言 运行 时 支持 子 系统 或 由 操作 系统 模拟 子 系 统 提 
供 的 高 层 操 作 系 统 接口 。 这 些 都 是 由 可 链接 在 应 用 程序 上 的 库 过 程 和 运行 在 微 内 核 上 的 服务 器 实 
现 的 。 


中 间 件 
语言 BA 
OS 模 拟 
支持 支持 FA o oe 
子 系统 子 系统 
微 内 核 
硬件 


微 内 核 通过 子 系统 支持 中 间 件 
图 7-16 微 内 核 的 作用 


可 以 在 同一 底层 平台 之 上 给 程序 员 提 供 多 个 系统 调用 接口 〈 多 个 “操作 系统 ”) 。 一 个 例子 是 : 在 
Mach 分 布 式 操作 系统 内 核 上 实现 UNIX 和 03/2 系统 。 需 要 注意 的 是 ， 操 作 系统 模拟 不 同 于 机 器 虚拟 
化 ( 见 7.7 节 )。 l 

比较 ”基于 微 内 核 的 操作 系统 的 主要 好 处 是 它 的 可 扩展 性 和 其 在 内 存 保护 边界 的 基础 上 增强 模块 
化 的 能 力 。 另 外 ， 一 个 相对 小 的 内 核 的 缺陷 可 能 比 大 而 复杂 的 内 核 少 。 

整体 内 核 设计 在 操作 调用 方面 效率 相对 高 一 些 。 但 系统 调用 可 能 比 常 规 的 过 程 操 作 开销 大 ， 即 使 
使 用 了 前 面 介绍 过 的 技术 ， 在 同一 结 点 上 的 一 个 用 户 级 地 址 空间 上 调用 的 开销 仍然 比较 大 。 

通过 使 用 像 分 层 (在 MULTICS[ Organick1972] 中 使 用 ) 或 像 在 Choices[ Campbell 等 1993 ] 中 使 用 
的 面向 对 象 设 计 这 样 的 软件 工程 技术 可 以 避免 整体 内 核 设 计 中 的 无 结构 性 。Windows 采用 了 以 上 两 种 
方法 的 组 合 [Custer 1998 ] 。 但 是 Windows 仍然 是 “巨大 ”的 ， 并 且 其 大 多 数 功 能 没有 被 设计 为 可 替换 
的 。 模 块 化 的 大 内 核 也 很 难 维护 ， 同 时 它 只 为 开放 的 分 布 式 系统 提供 有 限 的 支持 。 只 要 模块 在 同一 地 
址 空间 内 执行 ， 并 且 该 模块 是 用 C 或 C++ 语言 编译 为 高 效 代 码 ， 并 允许 随意 的 数据 访问 ， 就 可 能 破坏 
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严格 的 横 块 性 ， 因 为 程序 员 可 能 试图 使 用 一 种 更 高 效 的 实现 方法 ， 这 样 在 一 个 模块 的 缺陷 可 能 会 破坏 
男 一 个 模块 的 数据 。 

一 些 混合 的 方法 ”两 种 最 初 的 微 内 核 Mach[ Acetta et al. 1986] 和 Chorus[ Rozier et al. 1990] 在 其 开 
发 周期 中 将 运行 的 服务 器 仅仅 作为 用 户 进程 。 在 这 种 配置 下 ， 它 们 通过 硬件 支持 的 地 址 空间 来 增加 模 
块 性 。 在 服务 器 需要 直接 访问 硬件 的 地 方 ， 系 统 为 这 些 特权 进程 提供 了 特殊 的 系统 调用 ， 用 于 将 设备 
寄存 器 和 缓冲 区 映射 到 它们 的 地 址 空间 内 。 内 核 将 中 断 转 换 为 消息 ， 这 样 使 用 户 级 服务 器 可 以 处 理 
中 断 。 

因为 性 能 问题 ，Choms 和 Mach 微 内 核 设计 最 终 允 许 服务 器 可 以 动态 地 加 载 到 内 核 地 址 空间 内 或 用 
户 级 地 址 空间 内 。 在 这 两 种 情况 中 ， 客 户 可 以 用 相同 的 进程 间 通 信 调 用 与 服务 器 交互 。 因 此 开发 者 可 
以 在 用 户 级 调试 服务 器 ， 同 时 ， 在 开发 被 确认 完成 时 ， 为 了 优化 系统 性 能 ， 开 发 者 允许 服务 器 在 内 核 
地 址 空间 内 运行 。 但 这 样 的 服务 器 程序 会 影响 系统 的 完整 性 ， 因 为 它 可 能 包含 某 种 错误 。 

SPIN 操作 系统 [ Bershad et al. 1995] 设计 采用 语言 保护 机 制 来 取得 效率 和 保护 的 折 中 。 其 中 ， 内 
核 和 所 有 动态 载 人 到 内 核 的 模块 在 一 个 地 址 空间 内 执行 。 但 是 它们 都 是 用 类 型 安全 的 语言 [ Modula-3] 
编写 的 ， 所 以 它们 相互 保护 。 内 核 地 址 空间 内 的 保护 域 是 使 用 被 保护 的 名 字 空 间 来 建立 的 。 除 非 具有 
对 它 的 引用 ,否则 进入 内 核 的 模块 是 不 能 访问 这 一 资源 的 。 同 时 ，Modula-3 限制 了 引用 只 能 用 来 执行 
程序 员 允 许 的 操作 。 

为 了 尽 可 能 减少 系统 模块 之 间 的 依赖 ，SPIN 系统 的 设计 者 选择 了 一 个 基于 事件 的 模型 作为 进入 内 
核 地 址 空间 内 模块 的 交互 机 制 〈 见 6. 3 节 对 基于 事件 的 编程 的 讨论 ) 。 系 统 定义 了 一 系列 核心 事件 ， 如 
网 络 包 到 达 、 定 时 器 中 断 、 出 现 页 失 配 和 线程 状态 改变 等 。 系 统 组 件 将 自己 注册 为 这 些 事件 的 处 理 程 
序 。 例 如 ， 一 个 调度 器 可 以 将 自己 注册 为 一 个 处 理 程序 ， 用 于 处 理 那些 与 我 们 在 7. 4 节 讨 论 过 的 调度 
器 激活 系统 中 相似 的 事件 。 

通过 像 Nemesis[ Leslie et al. 1996] 这 样 的 操作 系统 ， 可 以 发 现 这 样 一 个 事实 : 即使 在 硬件 级 ， 一 
个 地 址 空间 也 未 必 是 一 个 保护 域 。 内 核 和 所 有 动态 加 载 的 系统 模块 以 及 所 有 的 应 用 程序 都 可 以 共存 在 
单个 地 址 空间 内 。 当 地 址 空间 载 人 应 用 程序 时 ， 内 核 将 应 用 程序 的 代码 和 数据 放置 在 运行 时 可 用 的 空 
间 内 。64 位 地 址 的 处 理 器 的 出 现 使 单 地 址 空间 的 操作 系统 变 得 更 加 吸引 人 ， 这 是 因为 它们 可 以 支持 很 
大 的 地 址 空间 ， 其 中 可 以 容纳 许多 应 用 程序 。 

a Da A s 
用 户 级 代码 仍然 在 处 理 器 的 特定 的 保护 上 下 文中 运行 〈 由 处 理 器 和 内 存 管理 单元 中 的 设置 决定 ) ， 

给 了 代码 访问 本 区 域 的 完全 权限 和 特定 的 共享 其 他 区 域 的 权限 。 相 对 于 多 地 址 空间 设计 ， metam 
设计 节省 了 开销 ， 因 为 当 域 转换 时 ， 内 核 不 需要 刷新 任何 缓存 。 

最 近 一 些 内 核 设 计 ， 例 如 IL4[Hartig et al. 1997] 和 Exokernel[ Kaashoek et al. 1997] 采用 了 我 们 所 
描述 的 “ 微 内 核 ”方法 ， 但 也 包含 许多 与 此 机 制 相反 的 策略 。L4 是 “第 二 代 ” 微 内 核 设 计 ， 它 要 求 
动态 加 载 的 模块 在 用 户 级 地 址 空间 内 执行 ,但 它 优化 了 进程 间 通 信 来 减少 上 述 策略 带 来 的 开销 。 通 
过 将 地 址 空间 的 管理 委托 给 用 户 级 服务 器 ， 它 减少 了 很 多 内 核 的 复杂 性 。Exokernel 系统 采用 了 一 种 
完全 不 同 的 方法 ， 它 采用 用 户 级 库 代 蔡 用 户 级 服务 器 来 提供 功能 扩展 。 它 提供 了 像 磁盘 块 这 样 极 低 


BS 














程序 上 。 

用 一 个 微 内 核 设计 者 [Liedtke 1996] 的 话说 :“ 微 内 核 的 发 展 过 程 充满 了 困难 和 绝境 ”。 正 如 我 们 
在 下 一 节 看 到 的 ， 需 要 支持 多 个 子 系统 和 提供 这 些 子 系统 之 间 的 保护 是 虚拟 化 概念 要 满足 的 ， 而 虚拟 
化 作为 操作 系统 设计 的 关键 创新 已 经 替代 了 微 内 核 方法 。 


7.7 操作 系统 层 的 虚拟 化 

虚拟 化 是 分 布 式 系统 中 的 一 个 重要 概念 。 我 们 已 经 在 网 络 化 环境 中 看 到 了 虚拟 化 的 一 个 应 用 ， 即 
以 覆盖 网 〈 见 4. 5 节 ) 的 形式 提供 对 特定 类 分 布 式 应 用 的 支持 。 虚 拟 化 也 应 用 在 操作 系统 环境 中 ; 确 
实 ， 在 操作 系统 环境 中 ， 虚 拟 化 已 经 具有 很 大 的 影响 力 。 本 节 ， 我 们 查看 在 操作 系统 层面 应 用 虚拟 化 
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的 含义 (系统 虚拟 化 ) ， 也 给 出 了 针对 Xen 的 实例 研究 ，Xen 是 系统 级 虚拟 化 的 先驱 。 


7.7.1 系统 虚拟 化 


系统 虚拟 化 的 目标 是 在 底层 物理 机 器 体系 结构 之 上 提供 多 个 虚拟 机 (虚拟 硬件 映像 )， 每 个 虚拟 
机 运行 一 个 独立 的 操作 系统 实例 。 这 个 概念 来 源 于 如 下 的 观察 :现代 计算 机 体系 结构 拥有 支持 大 量 虚 
拟 机 和 多 路 资源 所 必需 的 性 能 。 相 同 操作 系统 的 多 个 实例 能 运行 在 多 个 虚拟 机 上 ， 或 者 能 支持 大 量 不 
同 的 操作 系统 。 虚 拟 化 系统 在 它 所 支持 的 多 个 虚拟 机 之 间 分 配 物 理 处 理 器 和 物理 机 器 上 的 其 他 资源 。 

历史 上 ， 由 进程 负责 在 代表 一 个 或 几 个 用 户 运行 的 多 个 任务 之 间 共 享 处 理 器 和 其 他 资源 。 最 近 ， 
出 现 了 系统 虚拟 化 ， 现 在 它 常 被 用 于 共享 资源 的 目的 。 它 有 助 于 任务 的 安全 和 隔离 ， 并 在 分 配 资源 和 
根据 资源 使 用 向 每 个 用 户 收 费 方面 比 运行 在 单个 系统 的 进程 所 能 实现 的 更 准确 。 

为 了 完全 理解 操作 系统 层 上 虚拟 化 的 动机 ， 考 典 技 术 的 不 同 使 用 情况 是 有 用 的 : 

。 在 服务 器 机 器 上 ， 一 个 组 织 为 它 提供 的 每 个 服务 都 分 配 一 台 虚 拟 机 上 ， 接 着 ,将 虚拟 机 以 最 佳 
方式 分 配 到 物理 服务 器 上 。 与 进程 不 同 ， 虚 拟 机 能 很 简单 地 迁移 到 其 他 物理 机 器 上 ， 这 增加 了 
管理 服务 器 基础 设施 的 灵活 性 。 这 个 方法 能 潜在 地 减少 服务 器 计算 机 的 投资 并 减少 能 量 消耗 ， 
后 者 是 大 型 服务 器 农场 的 关键 问题 。 

。 虚拟 化 与 云 计算 的 提供 极为 相关 。 正 如 第 1 章 所 描述 的 ， 云 计算 采用 了 这 样 一 个 模型 ， 即 作为 

一 个 服务 ， 提 供 云 上 创建 的 存储 、 计 算 和 高 层 对 象 。 所 提供 的 服务 覆盖 从 诸如 物理 体系 结构 等 
的 底层 方面 〈 被 称 为 基础 设施 即 服务 ) 到 诸如 Google App Engine 等 的 软件 平台 (平台 即 服务 ) 
(HE 21 章 的 描述 ) ， 再 到 任意 应 用 层次 的 服务 (软件 即 服务 )。 确 实 ， 云 计算 首先 被 虚拟 化 
直接 驱动 ， 人 允许 为 云 的 用 户 提 供 一 个 或 多 个 虚拟 机 ， 供 用 户 自己 使 用 。 
分 布 式 应 用 的 需求 也 激发 虚拟 化 解决 方案 的 开发 者 去 以 很 少 开 销 创建 和 销毁 虚拟 机 。 在 可 能 需 
要 动态 地 请 求 资 源 的 应 用 中 ， 这 是 必要 的 ， 例 如 第 1 章 所 刻画 的 多 人 在 线 游戏 或 分 布 式 多 媒体 
应 用 [Whitaker et al. 2002] 。 通 过 采用 合适 的 资源 分 配 策略 满足 虚拟 机 服务 质量 需求 ， 能 提升 
对 这 样 的 应 用 的 支持 度 。 

。 另 一 个 相当 不 同 的 例子 是 ， 在 单个 台式 计算 机 上 提供 对 几 个 不 同 操作 系统 环境 的 便利 访问 。 虚 
拟 化 可 用 于 在 一 台 物 理 体系 结构 上 提供 多 种 操作 系统 类 型 。 

系统 虚拟 化 由 底层 物理 机 器 体系 结构 上 的 一 层 薄 薄 的 软件 实现 ， 这 一 层 被 称 为 虚拟 机 监控 器 《vir- 
tual machine monitor) 或 超级 管理 程序 (hypervisor) 。 虚拟 机 监控 器 基于 底层 物理 体系 结构 提供 一 个 接 
口 。 更 准确 来 说 ， 在 完全 虚拟 化 《full virtualization) 中 ， 虚 拟 机 监控 器 提供 与 低层 物理 体系 结构 一 样 
的 接口 。 这 带 来 的 好 处 是 ， 已 有 操作 系统 能 透明 并 且 不 用 修改 地 运行 在 虚拟 机 监控 器 上 。 然 而 ， 经 验 
显示 ， 完 全 虚拟 化 在 许多 计算 机 系统 结构 〈 包 括 x86 系列 处 理 器 ) 上 很 难 实现 令 人 满意 的 性 能 ， 通 过 
允许 提供 一 个 修改 后 的 接口 可 使 性 能 得 到 提升 。( 甚 缺点 是 操作 系统 需要 移植 到 这 个 修改 后 的 接口 。) 
SCS BEAR OB BBA, ( paravirtualization) ， 将 在 下 面 的 实例 研究 中 细 述 。 

注意 ， 虚 拟 化 与 7.6 节 讨 论 的 微 内 核 方 法 完全 不 同 。 虽 然 微 内 核 支持 多 个 操作 系统 的 共同 存在 ， 
但 它 是 通过 在 微 内 核 提供 的 可 重用 的 构建 块 上 模拟 操作 系统 实现 的 。 与 此 相反 ， 在 操作 系统 虚拟 化 中 ， 
一 个 操作 系统 直接 运行 在 虚拟 化 硬件 上 〈 或 稍微 做 些 修改 )。 虚 拟 化 的 核心 优势 和 它 优 于 微 内 核 的 主 
要 理由 是 应 用 能 无 须 被 重 写 或 重 编 译 即 可 运行 在 虚拟 化 环境 中 。 

虚拟 化 始 于 IBM 370 体系 结构 ， 它 的 VM 操作 系统 能 为 运行 在 同一 计算 机 上 的 不 同 的 程序 提供 几 
个 完整 的 虚拟 机 。 因 此 ， 该 技术 能 被 回溯 到 20 世纪 70 年 代 。 最 近 ， 人 们 对 虚拟 化 的 兴趣 大 增 ， 有 许 
多 研究 项 目 和 商业 系统 为 商用 PC、 服务 器 和 云 基 础 设施 提供 虚拟 化 解决 方案 。 主 流 的 虚拟 化 解决 方案 
的 例子 包括 Xen[ Barham et al. 2003a] 、Denali[ Whitaker et al. 2002] 、VM Ware, Parallels 和 微软 虚拟 服 
务 器 。 我 们 下 面 给 出 有 关 对 Xen 方法 的 实例 研究 。 


7.7.2 实例 研究 ;系统 虚拟 化 的 Xen 方法 
Xen 是 系统 虚拟 化 的 成 功 典 范 ， 它 最 初 是 作为 剑桥 大 学 计算 机 实验 室 的 Xenosever 项 目的 一 部 分 
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开发 的 ， 现 在 由 一 个 开源 社区 [ www. xen. org] 维护 。 一 个 相关 的 公司 XenSource 于 2007 年 被 Citrix 
Systems 获得 ， 现 在 由 Citrix 提供 基于 Xen 技术 的 企业 解决 方案 ， 包 括 XenoServer 和 相关 的 管理 及 自 
动 化 工具 。 下 面 提供 的 Xen 描述 是 基于 Barham 等 [2003a] 的 论文 和 相关 的 XenoServer 内 部 报告 
[ Barham et al. 2003b, Fraser et al. 2003 ] ， 以 及 一 本 全 面 介绍 Xen 超级 管理 程序 内 部 技术 的 书 [Chis- 
nall 2007]. 

XenoServer 项 目 [Fraser et al. 2003] 的 整体 目标 是 为 广 域 分 布 式 计 算 提 供 一 个 公共 基础 设施 。Xe- 
noSever 项 目 是 云 计 算 的 一 个 早期 的 例子 ， 关 注 将 基础 设施 作为 服务 。 在 XenoServer 远景 中 ， 世 界 充满 
了 XenoServer， 它 能 够 代表 顾客 执行 代码 ， 而 顾客 为 他 们 所 使 用 的 资源 付 账 。 

该 项 目 两 个 主要 的 结果 是 Xen 虚拟 机 监控 器 和 XenoServer 开放 平台 ， 详 细 令 述 见 下 。 

Xen 虚拟 机 上 监控 器 ”Xen 是 一 个 虚拟 机 监控 器 ， 它 最 初 是 设计 用 于 支持 XenoServer 的 实现 ， 但 已 
演化 成 系统 虚拟 化 的 一 个 独立 的 解决 方案 。Xen 的 目标 是 使 得 多 个 操作 系统 实例 以 完全 隔离 方式 运行 
在 常规 硬件 上 ， 同 时 最 小 化 由 相关 虚拟 化 引入 的 性 能 代价 。Xen 被 设计 成 能 处 理 非 常 大 数量 的 操作 系 
统 实例 (在 单个 机 器 上 多 达 几 百 个 虚拟 机 ) ， 并 能 处 理 异 构 性 ， 它 试图 支持 大 多 数 操作 系统 ， 包 括 
Windows, Linux, Solaris 和 NetBSD, Xen 可 以 运行 在 众多 硬件 平台 上 ， 包括 32 位 和 64 位 的 x86 体系 结 
构 ， 还 包括 PowerPC 和 IA64 CPU, 

1) Xen 的 体系 结构 7-17 展示 了 Xen 的 整个 体系 结构 。Xen 虚拟 机 监控 器 ( 称 为 超级 管理 程 
序 ) 是 这 个 体系 结构 的 中 心 ， 支 持 底 层 物理 资源 (特别 是 CPU 和 它 的 指令 集 ) 的 虚拟 化 以 及 CPU 资 
源 和 物理 内 存 的 调度 。 超 级 管理 程序 总 的 目标 是 通过 硬件 虚拟 化 提供 虚拟 机 ， 形 成 每 个 虚拟 机 拥有 自 
己 的 (虚拟 化 的 ) 物理 机 器 的 表象 ， 以 及 虚拟 资源 复 用 底层 物理 资源 提供 支持 。 为 了 实现 该 目的 ， 超 
级 管理 程序 必须 确保 在 其 所 支持 的 不 同 的 虚拟 机 之 间 有 强 有 力 的 保护 。 


Domain0 DomainU 
控制 平台 软件 用 户 软件 用 户 软 件 

客户 OS 客户 OS 客户 OS 
(XenlLinux) (XenoBSD) (XenlLinux) 
设备 驱动 器 设备 驱动 器 设备 驱动 器 

Domain0 虚拟 Xen 
控制 接口 x86 CPU 调度 虚拟 内 存 “超级 管理 程序 


底层 的 物理 硬件 〈 例 如 ，x86 机 器 ) 


图 7-17 Xen 体系 结构 


超级 管理 程序 遵循 (7.6 节 介 绍 的 ) Exokernel 的 设计 ， 实 现 了 最 小 的 资源 管理 和 隔离 机 制 ， 将 更 
高 层 的 策略 〈 特 别 是 域 ) 留 给 系统 体系 结构 的 其 他 部 分 ， 这 部 分 将 在 下 面 讨论 。 超 级 管理 程序 并 不 拥 
有 设备 或 设备 管理 的 知识 ， 但 提供 设备 交互 的 渠道 ， 这 部 分 也 将 在 下 面 讨 论 。 最 小 设计 对 于 下 面 两 个 
关键 的 理由 是 重要 的 : | 

e Xen 主要 关注 点 隔离 ， 包 括 故 障 隔 离 ， 超 级 管理 程序 中 的 一 个 故障 能 使 整个 系统 崩 演 。 因 此， 

.超级 管理 程序 的 最 小 化 、 可 充分 测试 和 无 错误 是 至 关 重要 的 。 

。 相对 于 在 裸 硬 件 上 执行 ， 超 级 管理 程序 代表 了 一 项 不 可 如 人 免 的 开销 ， 对 于 系统 的 性 能 而 言 ， 其 

尽 可 能 轻 量化 是 至 关 重 要 的 。( 正如 我 们 将 要 在 下 面 看 到 的 ， 半 虚拟 化 通过 在 可 能 的 地 方 绕 过 
超级 管理 程序 ， 也 能 帮助 最 小 化 这 个 开销 。) 

超级 管理 程序 的 作用 是 支持 一 个 可 能 很 大 数量 的 虚拟 机 实例 (在 Xen 中 称 为 域 ) ， 它 们 都 运行 客 
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户 操作 系统 (guest operating system) 。 运 行 在 Xen 域 中 的 客户 操作 系统 统一 被 称 为 domainU ， 或 无 特权 
域 ， 指 的 是 从 访问 物理 〈 相 对 于 虚拟 ) 资源 角度 来 看 ， 它 们 没有 特权 。 换 句 话说， 所 有 对 资源 的 访问 
都 被 Xen 小 心地 控制 着 。Xen 也 支持 一 个 特殊 的 域 ， 称 为 domain0。 它 能 优先 访问 硬件 资源 ， 并 作为 
Xen 体系 结构 的 控制 平台 ,在 系统 的 机 制 和 策略 之 间 提 供 一 个 清晰 的 分 离 。 (我 们 下 面 将 看 到 使 用 do- 
main0 的 例子 。) domain0 可 配置 成 运行 Linux 的 一 个 Xen 端口 (XenoLinux) ， 而 其 他 域 运行 在 某 个 客户 
操作 系统 。 注 意 ，Xen 体系 结构 允许 将 一 些 挑选 出 来 的 特权 授予 domainU ， 特 别 是 直接 访问 硬件 设备 或 
创建 新 域 的 能 力 ， 虽 然 实际 上 最 常见 的 配置 是 domain0 保留 这 些 特权 。 

为 了 继续 我 们 对 Xen 的 研究 ， 在 展示 Xen 如 何 支持 设备 的 管理 之 前 ,我 们 考虑 超级 管理 程序 核心 
功能 的 实现 ， 即 底层 硬件 的 虚拟 化 〈 包 括 半 虚 拟 化 的 使 用 ) 、 调 度 和 虚拟 内 存 管 理 。 我 们 通过 考 感 它 
通过 什么 将 一 个 给 定 的 操作 系统 移植 到 Xen 来 获得 结论 。 

2) 底层 CPU 的 虚拟 化 : 超级 管理 程序 的 主要 作用 是 为 每 个 域 提供 底层 CPU 的 虚拟 化 ， 也 就 是 
造成 每 个 域 拥 有 它 自己 的 (虚拟 的 ) CPU 和 相关 指令 集 的 表象 。 这 一 步 的 复杂 性 完全 依赖 给 定 CPU 
的 体系 结构 。 本 节 中 ， 我 们 特别 关注 将 虚拟 化 应 用 到 x86 体系 结构 这 个 现今 被 广泛 使 用 的 主流 处 理 
器 家 族 。 

Popek 和 Goldberg [1974] ， 在 一 篇 关于 虚拟 化 需求 的 经 典 论文 中 ， 重 点 研究 了 所 有 能 改变 机 器 状 
态 从 而 可 以 影响 其 他 进程 的 指令 (敏感 指令 ) ， 并 进一步 将 这 些 指令 划分 成 : 

e 控制 敏感 的 指令 ,这些 指令 试图 改变 系统 中 资源 的 配置 ， 例 如， 改变 虚拟 内 存 映 射 ; 

© 行为 敏感 的 指令 ,这些 指 令 读 取 特权 状态 ， 通 过 它 揭示 物理 而 非 虚 拟 资源 的 状况 ， 从 而 打破 虚 

拟 化 。 

接着 ， 他 们 认为 虚拟 化 的 条 件 是 所 有 敏感 指令 (控制 敏感 和 行为 敏感 ) 必须 由 超级 管理 程序 (或 
等 价 的 内 核 机 制 ) 截获 。 更 特别 的 ， 这 可 以 通过 掉 人 超级 管理 程序 来 实现 ， 机 器 体系 结构 中 的 特权 指 
令 概念 支持 这 点 ， 即 特权 指令 是 在 特权 模式 中 执行 的 指令 或 生成 一 个 陷阱 〈 该 陷阱 将 把 指令 带 人 特权 
模式 ) 的 指令 。 这 导出 了 下 面 关于 Popek 和 Goldberg 条 件 的 准确 叙述 : 

虚拟 化 条 件 ; 一 个 处 理 器 体系 结构 同意 参与 虚拟 化 ， 如 果 所 有 的 敏感 指令 是 特权 指令 。 

不 幸 的 是 ,在 x86 系列 处 理 器 中 不 是 这 样 的 情况 : 有 可 能 识别 出 17 条 指令 是 敏感 指令 而 非特 权 指 
令 。 例 如 ，LAR ( 装 和 访问 权力 ) 和 LSL ( 装 人 段 限制 ) 指令 属于 此 类 。 它 们 需要 被 超级 管理 程序 捕 
获 ， 以 确保 正确 的 虚拟 化 ， 但 没有 这 样 的 机 制 来 实现 ， 因 为 它们 不 是 特权 指令 。 

一 个 解决 方案 是 为 指令 集中 的 所 有 指令 提供 模拟 层 ， 这 样 才 有 可 能 在 该 层 内 管理 敏感 指令 。 这 就 
是 在 全 虚拟 化 中 所 做 的 ， 这 个 方法 带 来 的 好 处 是 客户 操作 系统 无 须 改动 即 可 运行 在 这 个 虚拟 化 环境 中 。 
但 这 个 方法 可 能 很 贵 ， 因 为 要 给 每 个 受 影响 的 指令 调用 增加 开销 。 相 对 而 言 ， 半 虚拟 化 认为 许多 指令 
能 直接 运行 在 没有 模拟 层 的 裸 硬 件 上 ， 而 特权 指令 应 该 被 超级 管理 程序 捕获 和 处 理 。 这 和 留 下 了 没有 被 
授权 的 敏感 指令 。 半 虚拟 化 方案 认识 到 这 些 指 令 会 导致 潜在 的 问题 ,需要 将 它 留 在 客户 操作 系统 中 处 
理 。 换 句 话 说， 必须 重 写 客户 操作 系统 以 容忍 或 处 理 这 些 指令 的 副作用 。 例 如 ， 重 写 部 分 代码 以 避免 
问题 指令 的 使 用 是 解决 方案 之 一 。 这 种 半 虚 拟 化 方法 大 大 提高 了 虚拟 化 的 性 能 ， 但 代价 是 要 求 客户 操 
作 系 统 移植 到 虚拟 化 环境 中 。 

为 了 进一步 理解 半 虚 拟 化 的 实现 ， 看 一 下 现代 处 理 器 中 的 特权 层次 (或 环 ) 。 例 如 ，x86 系列 支持 
四 层 特权 ， 环 0 特权 最 高 ， 环 1 次 之 ， 环 3 特权 最 低 。 在 一 个 传统 的 操作 系统 环境 中 ， 内 核 将 运行 在 
环 0， 应 用 运行 在 环 3， 而 环 1 和 环 2 没有 使 用 。 陷 阱 取得 从 应 用 到 内 核 的 控制 流 ， 并 且 人 允许 被 授权 活 
动 执行 。 在 Xen 中 ， 超 级 管理 程序 运行 在 环 0， 这 是 唯一 能 执行 特权 指令 的 地 方 。 客 户 操作 系统 运行 
在 环 1， 应 用 运行 在 环 3。 特 权 指令 被 重 写成 超级 调用 (hypercal) ， 它 们 能 掉 入 超级 管理 程序 ， 从 而 允 
许 超级 管理 程序 控制 这 些 可 能 是 敏感 的 操作 的 执行 。 所 有 其 他 的 敏感 指令 必须 像 上 面 讨 论 的 那样 ， 由 
客户 操作 系统 管理 。 . 

图 7-18 总 结 了 基于 内 核 的 操作 系统 和 Xen 之 间 的 不 同 。 

超级 调用 是 异步 的 ， 因 此 代表 相应 指令 应 该 被 执行 的 通知 〈 在 等 待 结果 的 客户 操作 系统 中 没有 阻 
塞 ) 。 超 级 管理 程序 和 客户 操作 系统 之 间 的 通信 也 是 异步 的 ， 由 Xen 超级 管理 程序 提供 的 一 个 简单 的 
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事件 机 制 支持 。 例 如 ， 该 机 制 可 用 于 处 理 设备 中 断 。 超 级 管理 程序 将 这 样 的 硬件 中 断 映射 到 正确 的 客 
户 操作 系统 中 的 软件 事件 上 。Xen 超级 管理 程序 因此 也 是 完全 事件 驱动 的 。 
内 核 超级 管理 程序 客户 OS 





a) 基于 内 核 的 操作 系统 b) Xen 中 的 半 虚 氢化 
图 7-18 特权 环 的 使 用 


3) 调度 : 在 7.4 节 中 ， 我们 看 到 许多 操作 系统 环境 支持 两 层 调度 ， 即 进程 的 调度 和 随后 的 进程 内 
用 户 级 线程 的 调度 。Xen 前 进 了 一 步 ， 引入 了 额外 的 与 特定 客户 操作 系统 的 执行 相关 的 调度 层 。 它 通 
过 引信 虚拟 CPU(VCPU) 的 概念 来 实现 ， 其 中 每 个 VCPU 支持 一 个 客户 系统 。 因 此 ， 调 度 涉及 下 列 
步骤 : 

。 超级 管理 程序 将 VCPU 调度 到 底层 物理 CPU， 因 此 为 每 个 客户 提供 一 部 分 底层 物理 处 理 时 间 。 

。 客户 操作 系统 将 内 核 级 线程 调度 到 其 已 被 分 配 的 VCPU 上 。 

。 在 适用 的 情况 下 ， 用 户 空 间 的 线程 库 将 用 户 级 的 线程 调度 到 可 用 的 内 核 层 线程 。 

Xen 中 关键 的 需求 是 底层 超级 管理 程序 调度 器 的 设计 是 可 预测 的 ， 因 为 高 层 调 度 器 将 做 出 有 关 该 
调度 器 自身 行为 的 假设 ， 而 且 更 关键 的 是 ， 这 些 假设 是 可 被 满足 的 。 

Xen 支持 两 个 调度 器 ， 简 单 的 EDF 和 信用 调度 器 : 

Xen 的 简单 的 最 早 截 止 期 优先 (Simple Earliest Deadline First, SEDF) HAS: 这 个 调度 器 选择 
具有 最 近 截 止 期 的 VCPU 来 进行 操作 ， 其 中 截止 期 根据 两 个 参数 进行 计算 : n CH) Alm (周期 )。 
例如 ， 一 个 域 能 每 100ms (m 值 ) 请 求 10ms (n 值 ) 。 这 个 截止 期 被 定义 成 : 能 满足 这 个 域 截止 期 的 
最 晚 的 开始 运行 时 间 。 返 回 我 们 的 例子 ， 在 系统 的 开始 点 ， 调 度 这 个 VCPU 在 100ms 周期 内 最 晚 从 
90ms 加 入 ， 仍 能 满足 截止 期 。 调 度 器 通过 选择 最 早 的 当前 截止 期 、 查 看 可 运行 的 VCPU 集合 来 
操作 。 

Xen 的 信用 调度 器 : 对 于 这 个 调度 器 ， 每 个 域 (VCPU ) 按照 两 个 特性 指定 一 一 权重 (weight) 和 
容量 (cap) 。 权 重 决定 应 该 给 VCPU 的 CPU 份额 多 少 。 例如， 如 果 一 个 VCPU 的 权重 是 64， 另 一 个 是 
32， 那 么 第 一 个 VCPU 应 该 得 到 后 者 份额 的 两 倍 。 合 法 的 权重 取 值 是 从 1 ~ 65 535， 默 认 是 256。 权 重 
授予 的 CPU 份额 可 以 由 容量 修改 。 容 量 用 一 个 百分比 表示 ， 表 示 了 应 该 被 给 予 相应 VCPU 的 CPU 的 总 
百分比 。 这 容量 可 以 指定 为 不 受 上 限 限制 的 调度 器 将 一 个 与 VCPU 相关 的 权重 转换 成 信用 ， 当 VCPU 
运行 时 ， 它 消费 信用 。 如 果 它 还 有 信用 ，VCPU 被 认为 是 “ 低 的 ” (under) ， 否 则 ， 它 被 认为 “高 的 ” 
(over) 。 对 任何 一 个 CPU ， 调 度 器 维护 一 个 可 运行 的 VCPU 队列 ， 排 在 前 面 的 是 “ 低 的 ”VCPU， 然 后 
是 “高 的 ”VCPU。 当 一 个 VCPU 未 被 调度 ， 它 被 放 在 队列 中 相关 分 类 的 末尾 。( 这 取决 于 它 现在 是 否 
仍 有 信用 还 是 信用 超支 。) 接着 ， 调 度 器 选择 队列 中 的 头 一 个 元 素来 运行 。 作 为 一 种 负载 平衡 ， 如 果 一 
个 给 定 的 CPU 没有 低 的 VCPU， 它 将 从 其 他 CPU 的 队列 搜索 一 个 可 能 的 候选 来 调度 。 

以 上 所 讲 调度 器 替换 了 Xen 以 前 的 调度 器 ， 包 括 一 个 简单 的 循环 调度 器 和 Atropos。 其 中 ， 简 单 的 
循环 调度 器 是 基于 借 到 的 虚拟 时 间 的 ， 此 概念 用 于 根据 不 同 的 域 权 重 设置 来 提供 一 定 比 例 的 底层 CPU 
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份额 ， 而 Atropos 则 用 于 支持 软 实时 调度 。 这 些 调 度 器 的 更 多 细节 可 以 在 Chisnall[2007] 中 找到 。 

增加 新 的 调度 器 到 Xen 超级 管理 程序 也 是 有 可 能 的 ,但 根据 如 上 讨论 的 需求 ， 这 是 需要 谨慎 对 待 
和 充分 测试 的 。Chisnali[ 2007] 提供 了 一 个 可 以 用 来 实现 Xen 中 的 一 个 简单 的 调度 器 的 步 又 指南 。 

客户 操作 系统 和 底层 调度 器 之 间 的 交互 是 通过 若干 调度 器 特定 的 超级 调用 来 实现 的 ， 包 括 主 动 
让 出 CPU (但 保留 可 运行 的 ) 的 操作 、 阻 塞 特定 域 直到 一 个 事件 的 发 生 或 者 因为 某 一 指定 原因 而 关 
闭 域 的 操作 。 

虚拟 内 存 管理 : 虚拟 内 存 管理 是 虚拟 化 最 复杂 的 部 分 ， 一 部 分 是 因为 针对 内 存 管理 的 底层 硬件 解 
决 方案 的 复杂 性 ， 一 部 分 是 因为 需要 插入 用 于 保护 的 额外 层 以 便 提供 不 同 域 之 间 的 隔离 。 我 们 下 面 提 
供 Xen 内 存 管 理 中 的 一 些 通 用 原则 。 鼓 励 读 者 研究 Chisnall [2007] 中 有 关 Xen 虚拟 内 存 管理 的 详 
细 描 述 。 

图 7-19 给 出 了 Xen 内 存 管 理 虚 拟 化 的 整体 方法 。 与 调度 一 样 ，Xen 采用 三 层 体系 结构 ， 即 管理 物 
理 内 存 的 超级 管理 程序 ， 提 供 伪 物 理 内 存 的 客户 操作 系统 内 核 ， 以 及 提供 虚拟 内 存 的 操作 系统 中 的 应 
用 ， 这 些 正 如 任 一 底层 操作 系统 所 期 望 的 一 样 。 擅 物理 内 存 (pseudo-physical memory) 概念 对 理解 系 
统 结构 很 关键 ， 下 面 做 进一步 的 描述 。 





超 


图 7-19 内 存 管理 的 虚拟 化 


在 虚拟 内 存 管理 体系 结构 中 关键 的 设计 决策 是 保持 超级 管理 程序 功能 最 小 化 。 超 级 管理 程序 实际 
上 有 两 个 角色 : 按 页 为 单位 分 配 物理 内 存 以 及 后 续 的 物理 内 存 管 理 。 
e 从 内 存 分 配 的 角度 ， 超 级 管理 程序 保留 小 部 分 物理 内 存 自用 ， 然 后 按 需 分 配 页 给 域 。 例 如 ， 当 
一 个 新 的 域 创建 时 ， 会 根据 域 所 声明 的 需要 ， 分 配 若 干 页 给 该 域 。 实 际 上 ， 这 个 页 面 集合 是 路 
越 物 理 地 址 空间 的 若干 分 段 ， 这 可 能 与 客户 操作 系统 的 期 望 相 冲 突 〈 它 可 能 期 望 一 个 连续 的 地 
址 空间 )。 伪 物理 内 存 的 角色 是 通过 提供 一 个 连续 的 伪 物 理 地 址 空间 ， 并 维护 从 该 地 址 空间 到 
实际 物理 地 址 的 映射 来 提供 抽象 。 关 键 是 ， 为 了 维护 超级 管理 程序 的 轻 量 特性 ， 这 个 映射 必须 
由 客户 操作 系统 而 不 是 超级 管理 程序 管理 。( 更 具体 地 说 ， 图 7-19 给 出 的 两 个 功能 的 组 合 要 由 
客户 实现 。) 这 个 方法 允许 客户 操作 系统 在 自己 的 上 下 文 环境 中 解释 这 个 映射 〈 例 如 ， 对 一 些 
不 需要 连续 地 址 的 客户 操作 系统 ， 能 消除 该 映射 ) ， 这 个 方法 也 使 得 迁移 一 个 域 到 一 个 不 同 的 
地 址 空间 更 加 容易 ， 例 如 在 一 个 服务 器 合并 中 。 相 同 的 机 制 也 被 用 于 支持 客户 操作 系统 的 暂停 
和 恢复 。 在 暂停 时 ， 域 的 状态 被 序列 化 到 磁盘 ; 在 恢复 时 ， 状 态 被 恢复 ， 但 可 能 放 在 一 个 不 同 
的 物理 位 置 。 它 通过 内 存 管理 体系 结构 中 的 额外 的 间接 层 实现 。 
。 从 物理 内 存 管理 的 角度 ， 超 级 管理 程序 输出 了 一 个 小 的 超级 调用 集合 来 操纵 底层 页 面 表 。 例 
如 ， 客 户 操作 系统 使 用 超级 调用 pt_update( list of requests) 请 求 对 一 个 页 面 表 的 一 批 增 量 更 新 。 
这 允许 超级 管理 程序 去 验证 所 有 的 请 求 ， 并 完成 那些 它 认为 是 安全 的 更 新 (例如 ， 通 过 强制 隔 
离 )。 
3 整体 上 讲 ， 这 是 一 个 灵活 的 虚拟 内 存 管理 方案 ， 它 允许 客户 操作 系统 优化 不 同 处 理 器 家 族 的 实现 。 
326 设备 管理 : 如 图 7-20 所 示 ，Xen 设备 管理 的 方案 依赖 分 离 的 设备 驱动 器 (split device driver) 概念 。 
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正如 从 图 7-20 中 所 看 到 的 ， 对 物理 设备 的 访问 完全 被 domain0 控制 ， 它 也 为 这 个 设备 准备 了 一 个 实际 的 
设备 驱动 器 。 当 domain0 运行 XenoLinux 时 ， 那 么 domain0 将 是 一 个 可 用 的 Linux 设备 驱动 器 。 当 一 些 设 
备 驱 动 器 能 很 好 地 支持 多 路 复 用 而 另 一 些 不 能 时 ， 强 调 这 点 很 重要 ， 因 此 ， 重 要 的 是 Xen 提供 一 个 抽 
象 ， 因 而 出 现 每 个 客户 操作 系统 都 能 拥有 自己 的 虚拟 设备 的 表象 。 这 可 以 通过 分 离 的 驱动 器 结构 实现 ， 
它 涉及 一 个 运行 在 domain0 上 的 后 端 设 备 驱动 器 和 一 个 运行 在 客户 操作 系统 中 的 前 端 驱动 器 。 它 们 之 
间 进 行 通信 从 而 为 客户 操作 系统 提供 必要 的 设备 访问 。 设 备 前 端 和 后 端 部 分 各 自 不 同 的 角色 叙述 如 下 : 


Domain0 Domain0: 
客户 操作 系统 






超级 管理 程序 


硬件 


图 7-20 分 离 的 设备 驱动 器 


。 后 端 在 体系 结构 中 有 两 个 关键 的 角色 要 扮演 。 首 先 ， 它 必须 管理 多 路 复 用 〈 特 别 是 来 自 多 个 客 
户 操作 系统 的 访问 ) ， 尤 其 是 在 底层 Linux 驱动 器 不 支持 的 地 方 。 其 次 ， 它 提供 -一 个 通用 的 接 
口 ， 这 些 接口 不 仅 可 以 捕获 设备 的 基本 功能 ， 而 且 中 立 于 所 使 用 的 不 同 客户 操作 系统 。 这 做 起 
来 比较 容易 ， 因 为 操作 系统 已 经 提供 若干 抽象 ， 能 以 中 立 的 方式 有 效 提供 必要 的 多 路 复 用 ， 例 
如 ， 读 到 和 写 人 持久 存储 上 的 块 。 高 层 接口 (例如 ， 套 接 字 ) 是 不 合适 的 ， 因 为 它们 太 偏 向 
于 给 定 操作 系统 的 抽象。 
。 前 端 ， 相 对 而 言 ， 是 非常 简单 的 ， 它 作为 客户 操作 系统 环境 中 设备 的 代理 来 接收 命令 ， 并 与 后 
端 进行 如 下 通信 : 
分 离 的 设备 结构 的 前 端 和 后 端的 通信 受益 于 两 个 
组 件 间 共 享 的 内 存 页 的 创建 。 共 享 内 存 的 区 域 是 通过 \ 
使 用 一 个 由 超级 管理 程序 支持 的 授权 表 (grant table) E 
机 制 建立 的 。 授 权 表 是 一 个 结构 (授权 项 ) 数组 ， 支 
持 这 样 的 操作 授权 允许 外 部 访问 一 个 内 存 保留 区 或 、 应 管 结束 
者 通过 授权 引用 允许 访问 其 他 内 存 保留 区 。 访 问 可 以 
被 授权 以 读 取 或 写 人 共享 内 存 区 域 。 这 个 机 制 提供 一 
个 轻 量 和 高 性 能 手段 用 于 Xen 中 不 同 域 的 通信 。 
正常 的 通信 机 制 是 在 这 个 共享 的 内 存 区 域内 使 用 
一 个 名 为 VO 环 的 数据 结构 ， 它 在 分 离 的 设备 驱动 器 
的 两 部 分 之 间 支 持 双 向 的 异步 通信 。1/O 环 的 结构 如 
图 7-21 所 示 。 域 通过 请 求 和 应 答 进行 通信 。 特 别 的 ， 图 7-21 VO 环 
一 个 域 顺 时 针 方向 写 人 其 请 求 ， 从 请 求 开始 指示 器 开始 (假设 有 足够 的 空间 ) ， 并 相应 地 移动 指针 。 
另 一 端 能 从 这 端 读 数据 ， 再 次 移动 相关 指针 。 应 答 也 是 通过 相同 的 过 程 。 对 连续 传递 大 量 数 据 的 设备 ， 
相应 的 末端 将 轮 询 这 个 数据 结构 。 对 不 频繁 的 数据 传递 ， 在 O 环 加 上 使 用 Xen 事件 机 制 可 以 通知 接 
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收 者 数据 已 准备 好 ， 可 用 于 消费 了 。 设 备 发 现 机 制 是 通过 一 个 名 为 XenStore 的 共享 的 信息 空间 ， 所 
有 域 都 可 以 访问 它 。XenStore 本 身 被 实现 成 一 个 使 用 分 离 设备 体系 结构 的 设备 ,该 设备 的 驱动 器 用 
于 广 而 告 之 它们 的 服务 。 所 提供 的 信息 包括 与 设备 相关 的 IO 环 的 授权 引用 和 (在 合适 的 地 方 ) 与 
设备 相关 的 任 一 事件 通道 。 由 设备 驱动 器 (LO 环 、 事 件 和 XenStore) 使 用 的 通信 设施 被 统一 称 为 
XenBus, 
一 个 给 定 的 Xen 安装 能 提供 设备 驱动 器 的 不 同 配置 。 用 户 期 望 大 多 数 Xen 实现 能 提供 两 个 通用 的 
驱动 器 : 
。 第 一 个 是 块 设备 驱动 器 ， 提供 块 设备 〈 最 常见 的 存储 设备 ) 的 一 个 公共 抽象 。 该 类 接口 非常 
简单 ， 支 持 三 类 操作 : 读 或 写 一 个 块 ， 以 及 实现 一 个 写 屏 障 (write barrier) LIRR ITA BA 
决 的 写 已 经 完成 。 

。 第 二 个 是 Xen 虚拟 接口 网 络 驱 动 器 ， 它 提供 一 个 公共 的 接口 ， 与 网 络 设备 交互 。 它 使 用 两 个 WO 
环 ， 来 传输 数据 到 网 络 和 接收 传 向 /来 自 网 络 的 数据 。 严 格 来 说 ， 环 被 用 于 控制 流 ， 而 分 离 的 共 
享 内 存 区 域 用 于 相关 数据 (从 最 小 化 拷贝 和 重用 内 存 区 域 的 角度 起 作用 ) 。 

注意 ， 大 多 数 这 种 体系 结构 被 实现 超级 管理 程序 上 ， 即 在 domain0 中 和 其 他 客户 操作 系统 中 。 超 
级 管理 程序 的 作用 仅 是 便利 域 之 间 的 通信 (例如 ， 通 过 授权 表 机 制 )， 其 他 是 构建 在 这 个 最 小 的 基础 
之 上 的 。 这 对 保持 超级 管理 程序 小 而 有 效 起 了 相当 大 的 作用 。 

移植 一 个 客户 操作 系统 ; 从 上 面 的 描述 能 看 到 移植 一 个 操作 系统 到 Xen 环境 需要 什么 。 这 包含 几 
个 关键 的 步 又 : 

© 替换 操作 系统 使 用 的 所 有 特权 指令 为 相应 的 超级 调用 ; 

© 对 所 有 的 其 他 敏感 指令 ， 以 保持 相关 操作 所 需 语义 的 方式 重新 实现 它们 ; 

。 移植 虚拟 内 存 子 系统 ; 

。 为 所 需 设 备 集 开发 分 离 层 的 设备 驱动 器 ， 在 适当 的 地 方 重用 在 domain0 中 提供 的 设备 驱动 器 功 

能 ， 以 及 通用 的 设备 驱动 器 接口 。 

上 述 内 容 涵盖 了 主要 的 任务 ,但 还 有 一 些 其 他 的 、 更 特定 的 需要 完成 的 任务 。 例 如 ，Xen 提供 自 
身 的 时 间 体 系 结构 ， 用 于 识别 实际 时 间 和 单个 客户 操作 系统 看 到 的 时 间 之 间 的 差别 。 

具体 一 点 讲 ， 超 级 管理 程序 提供 对 多 种 时 间 抽 象 的 支持 ， 其 体 包括 一 个 底层 的 周期 计数 时 间 (cy- 
cle counter time) ， 它 基于 底层 处 理 器 时 钟 ， 被 用 于 对 其 他 时 间 引 用 进行 播 值 ; 一 个 域 庶 拟 时 间 (do- 
main virtual time) ， 与 周期 计数 时 间 具 有 相同 的 时 间 推 进 率 ， 但 仅 用 在 一 个 特定 域 被 调度 时 ; 系统 时 间 
(system time) ， 它 准确 反映 了 系统 中 的 实际 时 间 ; 墙 钟 时 间 (wall clock time) ， 它 提供 实际 的 钟表 上 的 
时 间 。 超 级 管理 程序 假设 运行 在 域 中 的 操作 系统 实例 通过 进一步 的 移植 努力 将 在 这 些 值 之 上 提供 实际 时 
间 和 虚拟 时 间 抽 象 。 有 意思 的 是 ， 系 统 时 间 和 墙 钟 时 间 通 过 运行 在 domain0 中 的 一 个 NIP 客户 ( 见 第 14 
章 的 描述 ) 的 实例 ， 可 以 自动 修正 时 钟 漂移 。 这 仅仅 是 一 个 由 共享 的 domain0 完成 的 优化 的 例子 。 

XenoServer 开放 平台 ”如 前 所 述 ，Xen 最 初 是 作为 XenoServer 项 目的 一 部 分 被 开发 的 ， 该 项 目 调 
研 了 广 域 分 布 式 计算 的 软件 基础 设施 。 我 们 现在 描述 相关 XenoServer 开放 平台 [Hand et al. 2003] 的 整 
体 体系 结构 。 在 这 个 系统 结构 中 ， 如 图 7-22 所 示 ，, 为 了 使 用 系统 ， 窜 户 注册 一 个 名 为 XenoCorp 的 实 
体 。XenoServer 开放 体系 结构 的 开发 者 期 望 : 在 一 个 给 定 系 统 中 ，XenoCorp 的 多 个 完整 的 实例 可 以 提 
供 不 同 支付 机 制 和 服务 质量 〈 例 如 ， 不 同 的 私密 性 支持 ) 。 更 正式 的 ， 一 个 给 定 XenoCorp 的 作用 是 提 
供认 证 、 审 计 、 收 费 和 支付 服务 ， 在 客户 和 提供 XenoServer 的 组 织 之 间 维 护 合同 关系 。 这 由 一 个 注册 
进程 支持 ， 在 该 进程 中 ， 建 立 标识 并 创建 代表 (认证 的 ) 客户 承诺 的 购买 订单 ， 用 来 为 一 个 给 定 会 话 
提供 支持 。 

在 整体 体系 结构 中 ， 多 个 XenoServer 为 提供 服务 而 相互 竞争 。XenoServer 信息 服务 的 作用 是 允许 
XenoServer 广 而 告 之 它们 的 服务 ， 为 客户 基于 他 们 指定 的 需求 定位 合适 的 XenoServer。 广 告 用 XML 指 
定 ， 包 括 描 述 功能 、 资 源 可 用 性 和 价格 的 条 款 。 

信息 服务 是 相对 初级 的 ， 提 供 了 对 广告 集 的 基本 搜索 机 制 。 为 了 补充 其 功能 ， 平 台 体系 结构 还 提 
供 一 个 资源 发 现 (Resource Discovery, RD) 系统 ， 支 持 更 复杂 的 查询 ， 例 如 : 
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e 寻找 一 个 XenoServer， 其 与 客户 有 低 延 迟 的 链接 ， 并 能 满足 客户 对 给 定价 格 下 的 资源 的 需求 。 
© 寻找 一 个 XenoServer 集群 ， 它 们 通过 低 延 迟 链 接 互 连 ， 并 支持 安全 通信 而 且 满足 某 一 资源 
需求 。 






charge_from_purchase_order XenoCorp 








2 register_clien 
validate_purchase_order gister_client 


: create_purchase_order 
regi ster_xenoserver 


advertise_xenoserver Xenoserver lookup_xenoserver 


ee 信息 服务 


XenoServer | 客户 


find_xenoservers 
arene ee 





query_xenoserver_status 
create_session 


deploy_task 
图 7-22 XenoServer 开放 平台 体系 结构 


在 XenoServer 项 目 中 ， 主 要 的 创新 在 于 它 如 何 将 上 述 体系 结构 与 虚拟 化 相 耦 合 : 每 个 XenoServer 
都 运行 Xen 虚拟 机 监控 器 ， 因 为 要 虚拟 化 ， 它 允许 客户 为 虚拟 资源 而 不 是 物理 资源 竞价 ， 人 允许 系统 更 
有 效 地 管理 资源 集 。 这 是 云 计 算 和 虚拟 化 互补 本 性 的 一 个 直接 的 说 明 。 


7.8 小 结 


本 章 介绍 了 操作 系统 是 如 何 通 过 提供 在 共享 资源 上 的 调用 来 支持 中 间 件 层 的 。 操 作 系 统 提 供 了 若 
干 机 制 ， 用 于 实现 多 种 资源 管理 策略 ， 以 便 满 足 本 地 需求 及 技术 进步 中 获 益 。 它 允许 服务 器 封装 和 保 
护 资源 ， 同 时 允许 客户 并 发 地 共享 资源 。 它 还 提供 必要 的 机 制 以 便 客户 调用 资源 上 的 操作 。 

进程 由 执行 环境 和 线程 组 成 : 执行 环境 包括 地 址 空间 、 通 信 接 口 和 其 他 像 信号 量 这 样 的 本 地 资源 ; 
线程 是 在 执行 环境 中 执行 的 活动 抽象 。 地 址 空间 必须 比较 大 并 且 是 稀 朴 的， 以 便 支 持 对 文件 这 样 的 对 
象 的 共享 和 映射 访问 。 地 址 空间 新 创建 时 可 以 继承 其 父 进程 的 区 域 。 写 时 拷贝 是 一 项 重要 的 区 域 捞 贝 
技术 。 

进程 可 以 拥有 多 个 线程 ， 这 些 线程 共享 进程 的 执行 环境 。 多 线程 进程 允许 我 们 以 较 低 的 代价 实现 
并 发 ， 以 及 利用 多 处 理 器 的 优势 实现 并 行 。 这 对 客户 和 服务 器 都 很 有 用 。 最 近 的 线程 实现 允许 两 层 调 
RE: 用 户 级 代码 处 理 调度 策略 的 细节 ， 而 内 核 提供 对 多 处 理 器 的 访问 。 

操作 系统 为 经 由 共享 内 存 进 行 的 通信 提供 了 基本 的 消息 传递 原 语 和 机 制 。 大 多 数 内 核 都 包含 一 个 
实现 网 络 通信 的 基本 设施 ; 其 他 内 核 只 提供 本 地 通信 并 将 网 络 通信 功能 交 给 服务 器 完成 ， 它 可 以 实现 
一 系列 的 通信 协议 。 这 是 在 性 能 和 灵活 性 之 间 的 一 种 折 中 。 

我 们 讨论 了 远程 调用 并 且说 明了 直接 来 源 于 网 络 硬件 的 开销 和 来 源 于 操作 系统 代码 执行 的 开销 之 
间 的 区 别 。 我 们 发 现 ， 对 于 一 个 空调 用 而 言 ， 花 费 在 软件 上 的 时 间 相 对 比较 大 ， 但 当 调用 参数 的 字 节 
数 增 大 时 其 时 间 占 总 时 间 的 比例 会 减 小 。 调 用 中 可 被 优化 的 主要 开销 来 源 于 编码 、 数 据 拷贝 、 包 初始 
化 、 线 程 调 度 和 上 下 文 切换 以 及 流 控制 协议 的 应 用 。 在 同一 计算 机 内 地 址 空间 之 间 的 调用 是 一 个 重要 
的 特例 ， 我 们 描述 了 在 轻 量 级 RPC 中 使 用 的 线程 管理 和 参数 传递 技术 。 

实现 内 核 体系 结构 有 两 种 主要 方法 : 整体 内 核 和 微 内 核 。 它 们 之 间 的 主要 区 别 在 于 是 由 内 核 管理 
资源 还 是 由 动态 载 人 (通常 是 用 户 级 ) 的 服务 器 来 管理 资源 。 微 内 核 至 少 要 支持 进程 和 进程 问 通 信 。 
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它 支 持 操作 系统 模拟 子 系统 、 语 言 支持 子 系统 和 其 他 像 实 时 处 理 这 样 的 子 系统 。 虚 拟 化 提供 另 一 种 吸 
引 人 的 替代 该 方式 的 方法 ， 主 要 通过 提供 对 硬件 的 模拟 和 人 允许 多 个 虚拟 机 ( 和 多 个 操作 系统 ) 在 一 台 


机 器 上 共存 。 
练习 
7.1 在 UNIX 文件 服务 的 例子 中 〈 或 其 他 你 熟悉 的 例子 ) 讨论 封装 、 并 发 处 理 、 保 护 、 名 字 解 析 、 参 数 和 
返回 结果 的 通信 以 及 调度 。 (第 282 页 ) 
7.2 为 什么 一 些 系统 接口 由 专门 的 系统 调用 OAR) 实现 ， 而 其 他 一 些 系 统 接口 基于 消息 的 系统 调用 ? 
(第 282 页 ) 
7.3 史密斯 认为 在 他 的 进程 中 ， 每 个 线程 都 应 拥有 其 自己 的 保护 栈 ， 而 线程 的 其 他 区 域 必 须 被 完全 共享 。 
这 样 做 有 意义 吗 ? (第 286 页 ) 
7.4 信号 (软件 中 断 ) 处 理 器 应 属于 进程 还 是 线程 ? (第 286 页 ) 
7.5 讨论 共享 内 存 区 域 的 命名 问题 。 (第 288 页 ) 


7.6 


7. 


N 


8 


假设 要 设计 一 个 平衡 各 计算 机 负载 的 方案 ， 你 应 该 考虑 如 下 问题 : 

1) 这 一 方案 能 满足 用 户 或 系统 的 哪些 需求 ? 

2) 它 能 适应 哪 一 种 类 型 的 应 用 程序 ? 

3) 怎样 度量 和 以 何 种 精确 程度 度量 负载 ? 

4) 假设 进程 不 能 迁移 ， 怎 样 监控 负载 和 为 新 的 进程 选择 地 点 ? 如 果 进 程 能 在 计算 机 之 间 迁 移 ， 你 的 


设计 将 受到 哪些 影响 ? 进程 迁移 的 开销 很 大 吗 ? (第 289 页 ) 
解释 在 UNIX 中 区 域 用 写 时 拷贝 的 好 处 ， 其 中 在 一 个 exec 调用 后 通常 是 一 个 fork 调用 。 在 使 用 写 时 拷 
贝 的 区 域 是 自我 拷贝 的 情况 下 会 发 生 什 么 ? (第 291 页 ) 


一 个 文件 服务 器 使 用 缓存 ， 并 且 其 命中 率 为 80% 。 当 服务 器 在 缓存 中 查找 被 请 求 的 块 时 ， 服 务 器 中 
的 文件 操作 要 花费 Sms 的 CPU 时 间 ， 否 则 它 还 要 再 花 15ms 用 于 磁盘 V0。 对 于 下 面 假设 的 各 种 情况 ， 
估计 服务 器 的 吞吐 量 〈 平 均 请 求 / 秒 ) : 


1) 单线 程 。 

2) 在 一 个 处 理 器 上 运行 的 两 个 线程 。 

3) 在 两 个 处 理 器 计算 机 上 运行 的 两 个 线程 。 (第 292 页 ) 

比较 工作 池 多 线程 体系 结构 和 一 请 求 一 线程 体系 结构 。 (第 293 页 ) 
什么 样 的 线程 操作 开销 最 大 ? (第 295 页 ) 
spin 锁 〈 见 Bacon [2002]) 是 一 个 通过 原子 性 的 测试 - 设置 指令 访问 的 布尔 变量 ,其 用 于 实现 互 
斥 。 你 能 使 用 spin 锁 在 单 进程 的 计算 机 上 实现 线程 间 的 互 斥 吗 ? (第 298 页 ) 
解释 内 核 应 为 用 户 级 线程 的 实现 提供 哪些 支持 ， 例 如 在 UNIX 中 用 Java 语言 。 (第 300 页 ) 
页 失 配 是 用 户 级 线程 实现 中 的 问题 吗 ? (第 300 页 ) 
解释 在 “调度 器 激活 ”设计 中 使 用 混合 调度 方法 (而 不 是 纯粹 的 用 户 级 或 内 核 级 调度 ) 的 动机 。 

(第 301 页 ) 

为 什么 线程 包 会 对 线程 的 阻塞 或 解除 阻塞 事件 感 兴趣 ?” 为 什么 会 对 即将 被 抢占 的 虚拟 处 理 器 感 兴趣 
(提示 : 可 以 继续 分 配 其 他 虚拟 处 理 器 )? (第 302 页 ) 


网 络 传输 时 间 占 一 个 空 RPC 的 总 耗 时 的 20% ， 而 它 占 一 个 传输 1024 用 户 字 节 (小 于 一 个 网 络 包 的 
大 小 ) 的 RPC 的 总 耗 时 的 80% 。 如 果 网 络 由 原来 的 10Mbps 升级 到 100Mbps， 这 两 次 操作 的 网 络 传 
输 时 间 将 改善 百 分 之 多 少 ? (第 305 页 ) 
一 个 “ 空 ” 的 RMI 不 包含 参数 ， 它 调用 一 个 空 过 程 并 且 不 返回 结果 ， 其 延迟 为 2ms。 请 解释 导致 延 
RRRA. 
在 同一 个 RMI 系统 中 ,每 1K 的 用 户 数据 会 增加 1, Sms 延迟 。 一 个 客户 希望 从 文件 服务 器 获取 32KB 
的 数据 ， 它 应 该 使 用 一 个 32KB 的 RMI 还 是 应 该 使 用 32 个 1KB 的 RMI? (第 305 页 ) 
影响 远程 调用 的 哪些 因素 会 影响 消息 传递 ? (第 307 页 ) 
请 解释 共享 区 域 是 如 何 应 用 于 进程 读 取 内 核 写 的 数据 的 。 你 的 解释 应 包括 实现 同步 的 必要 机 制 。 

(第 308 页 ) 
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1.22 
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第 7 章 操作 系统 支持 + 195 


1) 轻 量 级 过 程 调 用 的 服务 器 能 控制 其 中 的 并 发 度 吗 ? 

2) 请 解释 在 轻 量 级 RPC 中 为 什么 以 及 如 何 客户 不 允许 调用 服务 器 内 的 任何 代码 。 

3) LRPC 是 不 是 比 传统 的 RPC (假设 是 共享 内 存 的 ) 具有 相互 干扰 的 风险 更 大 ? (第 309 页 ) 
一 个 客户 对 一 个 服务 器 进行 RMI 调用 。 客 户 需要 5ms 对 每 一 个 请 求 进 行 参数 计算 ， 并 且 服 务 器 要 花 
费 10ms 处 理 每 一 个 请 求 。 每 一 个 send 和 receive 操作 的 OS 处 理 时 间 是 0. Sms， 同 时 传输 每 一 个 请 求 
或 应 答 消 息 的 时 间 是 3ms。 每 个 消息 的 编码 或 解码 时 间 是 0. Sms。 

在 如 下 情况 下 ， 请 估计 客户 产生 两 个 请 求 并 返回 结果 的 时 间 ; 1) 单线 程 ; 2) 在 单个 处 理 器 上 有 两 
个 线程 ， 它 们 并 发 地 发 出 请 求 。 如 果 进 程 是 多 线程 的 ， 系 统 需要 使 用 异步 RMI 吗 ? (第 311 页 ) 
请 解释 什么 是 安全 性 策略 ， 在 像 UNIX 这 样 的 多 用 户 操作 系统 中 ， 相 对 应 的 是 什么 机 制 ? 


(第 314 页 ) 
请 解释 当 服 务 器 动态 载 人 内 核 地 址 空间 内 时 ， 程 序 必须 要 满足 的 连接 要 求 ， 并 说 明 这 种 情形 与 在 用 
户 级 执行 服务 器 的 区 别 。 (第 315 页 ) 
中 断 是 怎样 与 用 户 级 服务 器 通信 的 ? (第 317 页 ) 


在 某 个 计算 机 上 ， 我 们 预计 ; 不 管 其 运行 哪 种 0S， 线 程 调度 花费 50ks ， 一 个 空 过 程 调用 花费 1us， 
上 下 文 切换 到 内 核 花 费 20ps， 一 个 域 转换 花费 40ps。 在 使 用 Mach 和 SPIN 操作 系统 的 情况 下 ， 请 佑 
计 客 户 调用 动态 载 人 的 空 过 程 的 开销 。 (第 317 页 ) 
Xen 提倡 的 虚拟 化 方法 和 Exokernel 项 目 提倡 的 微 内 核 风格 ， 两 者 的 区 别 是 什么 ? 针对 你 的 答案 ， 给 
出 两 个 共同 的 特点 和 两 个 不 同 的 特点 。 (第 317，320 页 ) 
利用 ?7.7.2 节 讨 论 的 框架 ， 用 伪 代 码 概述 如 何 为 Xen 超级 管理 程序 增加 一 个 简单 的 轮转 调度 器 。 

(第 323 页 ) 
根据 你 对 Xen 虚拟 化 方法 的 理解 ， 讨 论 Xen 的 哪些 特点 能 支持 XenoServer 体系 结构 ， 并 说 明 虚 拟 化 
和 云 计 算 之 间 的 协 间 作用 。 (P320, 330) 
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分 布 式 对 象 和 组 件 


一 个 完整 的 中 间 件 方案 必须 提供 高 层 的 编程 抽象 ， 并 屏蔽 掉 分 布 式 系统 底层 的 复杂 性 。 本 章 主要 
关注 其 中 两 个 最 重要 的 编程 抽象 ， 即 分 布 式 对 和 象 和 组 件 ， 同 时 查看 相关 的 中 间 件 平台 ,包括 CORBA, 
EJB 和 Fractal。 

不 论 应 用 程序 使 用 何 种 编程 语言 、 硬 件 和 软件 平台 、 通 信 网 络 ， 不 论 应 用 程序 是 怎样 实现 的 ， 
CORBA 中 间 件 都 允许 应 用 程序 间 互 相通 信 。 应 用 程序 基于 CORBA 对 象 构 建 ， 它 的 实现 使 用 CORBA 
接口 定义 语言 IDL 定义 的 接口 。 与 Java RMI 类 似 ，CORBA 支持 远程 对 象 方法 的 透明 调用 。 在 CORBA 
中 ,支持 RMI 的 中 间 件 组 件 被 称 为 对 象 请 求 代 理 〈Object Request Broker, ORB) 。 

基于 组 件 的 中 间 件 的 出 现 是 分 布 式 对 象 技术 自然 演化 的 结果 ， 这 些 中 间 件 提供 对 组 件 间 依赖 的 管 
理 ， 隐 藏 与 中 间 件 相关 的 底层 细节 ， 用 适当 的 非 功能 性 属性 〈 如 安全 性 ) 管理 构建 分 布 式 应 用 所 遇 到 的 
复杂 性 ， 并 支持 恰当 的 部 署 策略 。 在 这 个 领域 中 的 关键 技术 包括 EJB (Enterprises JavaBeans) 和 Fractal, 


8.1 简介 


前 面 的 章节 从 通信 和 操作 系统 支持 方面 介绍 了 分 布 式 系统 基本 的 底层 构建 单元 ， 本 章 转 向 完整 的 
中 间 件 方案 ,给 出 了 当前 使 用 的 两 种 最 重要 的 中 间 件 的 风格 : 分 布 式 对 象 和 组 件 ， 第 9 章 和 第 10 章 则 
讨论 基于 Web 服务 和 对 等 方案 的 替代 方式 。 

正如 第 2 章 所 讨论 的 ， 中 间 件 的 任务 是 为 开发 分 布 式 系 统 提供 高 层 编程 抽象 ， 通 过 分 层 抽 象 底层 
基础 设施 的 异 构 性 ， 提 高 互 操作 性 和 移植 性 。 

分 布 式 对 象 中 间 件 分布 式 对 象 的 主要 特征 是 允许 使 用 面向 对 象 的 编程 模型 开发 分 布 式 系统 ， 从 
而 隐藏 分 布 式 编程 底层 的 复杂 性 。 按 照 这 种 方法 ,通信 实体 被 表示 成 对 象 。 对 象 通信 主要 使 用 远程 方 
法 调用 ， 但 也 可 以 使 用 其 他 的 通信 范 型 ， 例 如 分 布 式 事件 。 这 种 相对 简单 的 方式 具有 许多 好 处 ， 包 括 
下 面 所 列 出 的 : 

。 其 于 对 象 方案 固有 的 封装 很 适合 分 布 式 编程 。 

> 数据 抽象 的 相关 特性 使 对 象 的 规约 和 其 实现 分 离 ， 它 允许 程序 员 只 处 理 接口 而 无 须 关 注 诸如 使 

用 的 编程 语言 和 操作 系统 这 样 的 实现 细节 。 
。 这 种 方式 也 适用 于 更 动态 和 可 扩展 性 的 解决 方案 ,例如 通 过 允许 引入 新 的 对 象 或 者 使 用 一 个 对 
象 替 代 另 一 个 兼容 的 对 象 。 

基于 分 布 式 对 象 的 中 间 件 解决 方案 有 很 多 ,包括 Java RMI 和 CORBA。 随 后 会 在 8. 2 节 总 结 分 布 式 
对 象 的 主要 特征 ， 并 在 8. 3 节 给 出 详细 的 关于 CORBA 的 实例 研究 。 

基于 组 件 的 中 间 件 ”开发 基于 组 件 的 中 间 件 是 为 了 克服 使 用 分 布 式 对 象 中 间 件 开发 应 用 中 所 遇 到 
的 一 系列 限制 ， 包 括 ， 

BARH: 对 象 接 口 不 能 描述 这 个 对 象 的 实现 依赖 的 是 什么 ， 这 使 得 难以 对 基于 对 象 的 系统 进行 
开发 (尤其 对 第 三 方 开 发 者 ) 和 后 续 的 维护 。 

编程 复杂 性 : 编写 分 布 式 对 象 中 间 件 程序 需要 掌握 很 多 与 中 间 件 实现 相关 的 底层 细节 。 

缺少 关注 点 分 离 支持 : 应 用 开发 者 不 得 不 关注 诸如 安全 性 、 故 障 处理 和 并 发 性 等 细节 ， 而 这 些 细 
节 在 不 同 的 应 用 中 是 非常 相似 的 。 

无 部 署 支持 : 基于 对 象 的 中 间 件 很 少 提供 或 不 提供 对 对 象 〈 可 能 是 很 复杂 的 ) 配置 的 部 署 支持 。 

基于 组 件 的 解决 方案 可 以 理解 为 它 是 基于 对 象 方法 的 自然 演化 ， 它 继承 了 基于 对 象 方法 的 很 多 前 
期 工作 。8.4 节 详 细 讨论 了 这 样 做 的 合理 性 并 介绍 了 基于 组 件 方法 的 主要 特征 。8. 5 节 提 供 了 基于 组 件 
方法 的 两 个 有 明显 差异 的 实例 研究 ，EJB 和 Fractal, EJB 提供 了 一 个 完整 的 方案 ， 它 抽象 了 分 布 式 应 用 
开发 中 的 很 多 关键 问题 ， 而 Fractal 是 一 个 轻 量 级 的 方案 ， 它 用 于 构造 更 复杂 的 中 间 件 技术 。 
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8.2 分 布 式 对 象 


基于 分 布 式 对 象 的 中 间 件 旨 在 提供 基于 面向 对 象 原则 的 编程 模型 ， 因 此 给 分 布 式 编程 带 来 了 面向 
对 象 方法 的 好 处 。 

Emmerich [2000] 认为 分 布 式 对 象 是 以 下 三 个 方面 的 自然 演化 : 

© 分 布 式 系 统 方面 ， 早 期 的 中 间 件 是 基于 客户 -服务 器 模型 的 ， 因 此 它 有 向 更 复杂 编程 抽象 演化 

的 愿望 。 
。 编程 语言 方面 ， 早 期 的 面向 对 象 语言 Simula-67 、Smalltalk 的 工作 导致 更 为 主流 和 广泛 使 用 的 编 
程 语言 的 出 现 ， 如 Java 和 C++ ， 它 们 在 分 布 式 系统 中 广 为 使 用 。 
。 软件 工程 方面 ， 面 向 对 象 的 设计 方法 取得 重要 进展 从 而 导致 UML (Unified Modelling Language) 
的 出 现 ， 并 使 UML 成 为 详细 说 明 (可 能 是 分 布 的 ) 面向 对 象 软件 系统 的 业界 标准 的 表示 法 。 
换言之 , 分 布 式 系 统 开发 者 通过 采用 面向 对 象 的 方法 ,不仅 能 够 拥有 丰富 的 编程 抽象 (通过 利用 
熟悉 的 编程 语言 如 C++ 和 Java) ， 还 能 在 分 布 式 系统 软件 开发 中 使 用 面向 对 象 的 设计 原则 、 工 具 和 技 
R (包括 UML) 。 这 是 分 布 式 软件 开发 的 重要 进步 ， 在 这 之 前 没有 可 用 的 设计 技术 。 有 趣 的 是 开发 
CORBA (参见 8.3 节 ) 的 组 织 OMG 同时 也 管理 UML 的 标准 化 。 

分 布 式 对 象 中 间 件 提供 基于 面向 对 象 原则 的 编程 抽象 。 分 布 式 对 象 中 间 件 的 典型 例子 有 Java RMI 
(相关 讨论 见 5.5 节 ) 和 CORBA (下 面 的 8.3 节 将 深度 探讨 ) 。 尽 管 Java RMI 和 CORBA 有 很 多 共同 
点 ， 但 它们 有 一 个 重要 的 区 别 : Java RMI 只 能 使 用 Java 开发 ， 而 CORBA 是 一 个 多 语言 的 解决 方案 ， 
允许 用 多 种 语言 编写 的 对 象 进行 互 操作 (已 有 对 C++. Java, Python 和 其 他 若干 语言 的 绑 定 ) 。 

必须 强调 的 是 分 布 式 对 象 编程 不 同 于 标准 的 面向 对 象 编程 ， 它 比 后 者 更 复杂 ， 总 结 如 下 : 

ABA ”分布 式 对 象 和 一 般 对 象 的 主要 不 同 点 已 经 在 5.4.1 节 介 绍 RM 时 给 出 ,为 了 方便 起 见 ， 
在 图 8-1 中 又 做 了 总 结 。 其 他 的 不 同 点 会 在 8.3 节 详 细 介 绍 CORBA 时 给 出 。 这 些 不 同 点 包括 : 














对 象 分 布 式 对 象 分 布 式 对 象 的 描述 
对 象 引 用 远程 对 象 引 用 分 布 式 对 象 具 有 全 局 瞧 一 的 引用 ， 可 以 作为 参数 传递 ] 
接口 远程 接口 提供 在 远程 对 象 上 可 以 调用 的 方法 的 抽象 规约 ， 该 规约 使 用 接口 定义 
语言 (IDL) 指定 
动作 分 布 式 动作 由 方法 调用 初始 化 ,可 能 会 形成 调用 链 ; 使 用 RM 进行 远程 调用 
异常 分 布 式 异 常 由 于 系统 的 分 布 特 性 ， 会 生成 额外 的 异常 ， 例 如 消息 丢失 或 进程 故障 
Hr FR a] Be 分 布 式 垃圾 回收 需要 分 布 式 垃圾 回收 算法 ， 扩 展现 有 模式 确保 对 象 在 至 少 有 一 个 本 地 
或 远程 对 象 引用 时 必须 存在 ， 否 则 应 该 回收 它 
图 8-1 分 布 式 对 象 


。 类 是 面向 对 象 语言 的 基本 概念 ， 但 在 分 布 式 对 象 中 间 件 中 它 的 特征 不 那么 显著 。 请 注意 ， 在 
CORBA 实例 研究 中 ， 在 多 种 语言 共存 的 异 构 环 境 中 ， 很 难 对 类 给 出 一 个 通用 的 解释 。 在 面向 
对 象 的 世界 中 ， 类 通常 有 几 个 解释 : 一 组 对 象 的 相关 行为 描述 〈 从 类 创建 一 个 对 象 所 使 用 的 模 
板 ) ， 用 给 定 的 行为 实例 化 对 象 或 对 象 组 的 地 方 〈 相 关 的 工厂 ) 。 而 在 分 布 式 对 象 中 ， 避 免 使 
用 术语 “类 ”， 而 乐意 使 用 “工厂 ”和 “模板 ”这 样 的 更 特定 的 术语 〈 一 个 工厂 对 象 通过 一 个 
给 定 模板 实例 化 一 个 新 对 象 ) 。 

。 继承 的 风格 与 大 部 分 面向 对 象 语言 有 显著 的 不 同 。 特 别 地 ， 分 布 式 对 象 中 间 件 提供 接口 继承 
(interface inheritance) ， 这 是 一 种 接口 间 的 关系 ， 它 使 得 新 接口 从 原 有 接口 中 继承 方法 基调 
(Signature) 并 可 以 添加 额外 的 基调 。 相 反 的 ， 面 向 对 象 的 语言 ， 例 如 Smalltalk ， 提 供 实现 继承 
(implementation inheritance) ， 它 是 实现 之 间 的 关系 ， 即 〈 在 这 个 情况 下 的 ) 新 类 继承 原 有 类 的 
实现 (ATA) 并 可 以 增加 额外 的 行为 。 由 于 需要 正确 地 分 析 运 行 时 的 执行 行为 ， 实 现 继承 
在 分 布 式 系统 中 非常 难以 实施 。 例 如 ， 在 分 布 式 系统 中 ， 可 能 存在 异 构 层 次 ， 同 时 还 需要 实现 
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高 可 伸缩 的 解决 方案 。 

Wegner 在 他 的 对 面向 对 象 语言 发 展 有 巨大 影响 的 论文 [Wegner 1987] 中 将 面向 对 象 定义 为 “对 
象 + 类 + 继承 "。 在 分 布 式 系统 中 ， 这 一 解释 显然 要 稍 做 改动 ， 需 避免 类 和 继承 的 使 用 或 改变 它们 的 使 
用 方式 ， 而 封装 、 数 据 抽象 以 及 与 设计 方法 学 的 联系 仍然 是 关注 的 重点 。 

新 增 的 复杂 性 ”由 于 涉及 新 增 的 复杂 性 ， 相 关 的 分 布 式 对 象 中 间 件 必须 提供 额外 的 功能 ， 总 结 如 下 : 

对 象 间 通信 ; 分 布 式 对 象 中 间 件 框架 必须 提供 对 象 在 分 布 式 环境 中 的 一 个 或 多 个 通信 和 机制， 这 通 
常 由 远程 方法 调用 提供 ， 虽 然 分 布 式 对 象 中 间 件 也 提供 其 他 的 通信 范 型 (例如 ， 分 布 式 事件 之 类 的 间 
接 方法 ) 作为 补充 。CORBA 提供 事件 服务 和 相关 的 通知 服务 ， 并 将 其 实现 为 核心 中 间 件 之 上 的 服务 
(参见 8.3.4 节 )。 

生命 周期 管理 : 生命 周期 管理 关注 对 象 的 创建 、 迁 移 和 删除 ， 每 一 步 都 需要 处 理 底 层 环 境 的 分 布 
式 特 征 。 

激活 与 去 活 : 在 非 分 布 式 实现 中 ， 常 常 假 设 在 包含 对 象 的 进程 运行 时 ， 对 象 始终 是 活动 的 。 然 而 
在 分 布 式 系 统 中 ， 不 能 做 这 样 的 假设 ， 因 为 对 象 的 数目 可 能 非常 大 ， 因 此 让 所 有 的 对 象 在 任何 时 间 都 
可 用 会 导致 资源 浪费 。 另 外 ， 持 有 对 象 的 主机 可 能 一 段 时 间 不 可 用 。 激 活 是 在 分 布 式 环境 中 使 得 对 象 
变 成 活动 的 过 程 ， 即 为 对 象 提供 必要 的 资源 以 使 它 能 有 效 处 理 到 达 的 调用 〈 在 虚拟 内 存 中 定位 对 象 并 
为 它 分 配 执 行 所 需 的 必要 线程 ) 的 过 程 。 去 活 是 与 之 相反 的 过 程 ， 它 使 得 对 象 暂时 不 能 处 理 请 用 。 

339 持久 化 : 对 象 通常 具有 状态 ， 维 护 对 象 在 可 能 的 激活 和 去 活 周期 以 及 系统 故障 时 的 状态 是 很 重要 
的 ， 因 此 分 布 式 对 象 中 间 件 必须 为 有 状态 对 象 提供 持久 化 管理 。 

其 他 服务 : 一 个 完整 的 分 布 式 对 象 中 间 件 框架 还 必须 支持 本 书 关注 的 分 布 式 系统 服务 ， 如 名 字 、 

安全 和 事务 服务 。 


8.3 实例 研究 ，CORBA 


对 象 管理 组 (Object Management Group, OMG) 成 立 于 1989 年 ， 它 鼓励 采用 分 布 式 对 象 系统 ， 以 
便 软 件 开发 能 从 面向 对 象 编程 中 获 益 ， 以 及 利用 正在 变 得 广泛 的 分 布 式 系 统 。 为 了 实现 这 一 月 标 ， 
OMG 主张 使 用 基于 标准 的 面向 对 象 接口 的 开放 系统 ， 这 些 系 统 可 以 构筑 在 异 构 的 硬件 、 计 算 机 网 络 、 
操作 系统 和 编程 语言 之 上 。 

OMG 的 一 个 重要 的 动机 是 允许 分 布 式 对 象 可 以 用 任何 语言 实现 并 能 彼此 通信 。 因 此 ，OMG 设计 
了 一 个 与 任何 具体 实现 语言 无 关 的 接口 语言 。 

它们 引 人 了 对 象 请 求 代理 (ORB) ，ORB 负责 协助 客户 调用 对 象 上 的 方法 (遵循 RMI 风格 ,参见 
第 5 Mite). ORB 负责 定位 对 象 、 在 必要 时 激活 对 象 、 将 客户 请 求 发 送 给 对 象 ， 并 在 对 象 执行 后 
发 送 应 管 。 

本 节 基 于 对 象 请 求 代理 的 概念 ， 给 出 对 OMG 的 公共 对 和 象 请 求 代理 结构 (Common Object Request 
Broker Architecture, CORBA) 的 实例 研究 。 本 节 关 注 CORBA 2 规约 〈 其 后 续 版 本 CORBA 3 的 主要 创 
新 是 引入 了 一 个 组 件 模型 ， 将 在 8.4 节 中 讨论 ) 。 

CORBA 的 独立 于 语言 的 RMI 框架 主要 包含 以 下 部 分 : 

。 接口 定义 语言 ， 将 在 8. 3. 1 节 详 细 描 述 ; 

。 体系 结构 ， 将 在 8. 3.2 节 讨 论 ; 

。 外 部 数据 表示 ， 称 为 CDR， 在 4.3. 1 节 已 讨论 过 一 一 CDR 还 定义 了 请 求 - 应 答 协 议 中 消息 的 
具体 格式 ， 同 时 也 定义 了 查询 对 象 位 置 、 取 消 请 求 和 报告 错误 的 消息 。 

© 远程 对 象 引 用 的 标准 格式 ， 将 在 8. 3. 3 节 讨 论 。 

CORBA 的 体系 结构 考虑 了 CORBA 服务 ，CORBA 服务 是 对 分 布 式 应 用 很 有 用 的 一 系列 通用 服务 。 

这 些 服务 会 在 8. 3. 4 节 简 要 介绍 。( 一 个 包含 了 CORBA 服务 详细 讨论 的 更 完整 的 实例 研究 版 本 可 以 在 
本 书 的 Web 网 站 www. cdk5. net 找到 。) 
8.3.5 节 还 包括 了 一 个 使 用 CORBA 开发 客户 和 服务 器 的 例子 。 
关于 CORBA 的 论文 集 可 以 参见 CACM 特刊 [Seetharamanan 1998], 
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8. 3.1 CORBA RMI 


在 CORBA RMI 这 样 的 多 语言 RM 系统 中 编程 ， 相 比 在 单 语 言 RMI 系统 (如 Java RMI) 中 编程 ， 
需要 程序 员 具 有 更 多 的 知识 。 需 要 学 习 以 下 新 的 概念 : 

© CORBA 提供 的 对 象 模 型 ; 

。 接口 定义 语言 ; 

。 IDL 到 实现 语言 的 映射 。 

CORBA 编程 的 其 他 方面 和 第 5 章 中 讨论 的 类 似 。 尤 其 是 ， 程 序 员 为 远程 对 象 定义 远程 接口 并 使 用 
接口 编译 器 来 产生 相应 的 代理 和 存根 。 但 在 CORBA 中 ,代理 由 客户 端 语言 产生 ， 而 存根 则 由 服务 端 语 
言 产 生 。 

CORBA 的 对 象 模型 CORBA 的 对 象 模型 与 5. 4. 1 节 讨 论 的 类 似 ， 但 客户 未 必 是 对 象 一 一 客户 可 
以 是 任何 程序 ， 它 们 给 远程 对 象 发 送 请 求 消息 并 接收 应 答 。 术 语 CORBA 对 象 指 的 是 远程 对 象 。 这 样 ， 
一 个 CORBA 对 象 实现 一 个 IDL 接口 ， 具 有 一 个 远程 对 象 引 用 ， 能够 应 答对 其 DL 接口 中 的 方法 的 调 
用 。CORBA 对 象 可 以 使 用 非 面向 对 象 语言 ， 例 如 没有 类 的 概念 的 语言 来 实现 。 因 为 实现 语言 对 类 的 表 
示 是 不 同 的 ， 或 者 甚至 没有 类 的 概念 ， 因 此 在 CORBA 中 不 存在 类 的 概念 (参见 8. 2 节 的 讨论 ) 。COR- 
BA IDL 中 不 能 定义 类 ， 这 意味 着 类 的 实例 也 不 能 作为 参数 传递 。 然 而 ， 其 他 具有 任意 复杂 度 的 各 种 类 
型 的 数据 结构 可 以 作为 参数 传递 。 

CORBA IDL CORBA IDL 接口 指定 了 一 个 名 字 和 一 组 客户 可 以 请 求 的 方法 。 图 8-2 给 出 了 一 个 例 
F, 定义 了 两 个 接口 ， 名 为 Shape (第 3 行 ) 和 ShapeList (第 5 行 )， 它 是 图 5-16 定义 的 接口 的 IDL 版 
本 。 接 口 定义 前 是 两 个 stmet 的 定义 ， 这 两 个 struct 被 用 作 方 法 定义 的 参数 类 型 。 请 注意 ，GraphicalOb- 
ject 被 定义 为 stuet， 而 在 Java RMI 的 例子 中 它 是 一 个 类 。 一 个 struct 类 型 的 组 件 包 含 了 多 个 类 型 值 各 
异 的 域 ， 就 像 是 对 象 的 实例 变量 ,但 它 没有 方法 。 


struct Rectanglef 1 
long width; 
long height; 


long x; 
long y; 








BM 

struct GraphicalObject { 2 
string type; 
Rectangle enclosing; 
boolean isFilled; 


F 

interface Shape { 3 
long getVersion(); 
GraphicalObject getAllStateQ; / returns state of the GraphicalObject 


typedef sequence <Shape, 100> All; 4 

interface ShapeLisi { 5 
exception FullException{ }; 6 
` Shape newShape(in GraphicalObject g) raises (FuilException),; 7 
All allShapes(); // returns sequence of remote object references 8 
long getVersion(); 











图 8-2 IDL #0 Shape 和 ShapeList 


更 详细 地 说 ，CORBA IDL 提供 了 定义 模块 、 接 口 、 类 型 、 属 性 和 方法 基调 的 设施 。 除 了 模块 ， 其 
他 几 个 在 图 5-8 和 图 8-2 中 都 有 相应 的 例子 。CORBA IDL 与 C++ 有 相同 的 词法 规则 ， 但 为 了 支持 分 布 ， 
增加 了 一 些 额 外 的 关键 字 ， 例 如 interface, any, attribute, in, out, inout, readonly 和 raises。 它 也 支持 
标准 的 C++ 预 处 理 功能 ， 例 如 参见 图 8-3 中 用 于 Al 的 tyepdef。 

IDL 的 语法 是 ANSI C++ 的 子 集 ， 同 时 增加 了 支持 方法 基调 的 构造 设施 。 这 里 只 给 出 IDL 的 一 个 简 
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介 。 一 个 有 用 的 概述 和 众多 例子 可 以 在 Baker [1997 ] Henning 和 Vinoski [1999] 找到 。 完 整 的 规约 
可 以 在 OMG 的 网 站 上 找到 [OMG 2002a], 











辑 单元 的 形式 分 组 。 一 个 模块 (module) 定义 了 一 个 名 字 的 作 struct Rectangle{ 

a 、 、 、 weft 
用 域 ， 它 能 防止 模块 内 定义 的 名 字 与 模块 外 定义 的 名 字 相 冲 wo at GraphicalObject { 
突 。 例如， 在 图 8-3 中 ， 接 口 Shape 和 ShapeList 的 定义 属于 名 wh 
为 Whiteboard 的 模块 。 merece Shape { 

IDL 接口 : 正如 我 们 已 经 看 到 的 ，IDL 接口 描述 了 实现 该 typedef sequence <Shape, 100> All; 

接口 的 CORBA 对 象 的 可 用 方法 。 可 以 仅 根据 IDL 接口 描述 开 interface ShapeList { 
发 CORBA 对 象 的 客户 。 读 者 从 例子 中 可 以 看 到 ,接口 定义 了 |) 
一 组 操作 和 属性 ， 并 常常 依赖 于 一 组 在 接口 内 定义 的 类 型 。 例 。 一 ~ 





如 ， 图 5-8 中 PersonList 接口 定义 了 一 个 属性 和 三 个 方法 ， 这 8-3 IDL ERIR Whiteboard 
个 接口 依赖 于 类 型 Person。 
IDL 方法; 下 面 是 定义 方法 基调 的 一 般 形式 。 
[oneway] <return_type> <method_name> (parameterl,..., parameterL) 
[raises (excepti,..., exceptN)] [context (namel,..., nameM)]; 


其 中 ， 方 括号 里 的 表达 式 是 可 选 的 。 例 如 ， 下 面 是 一 个 方法 基调 的 例子 ， 它 只 包含 必要 的 部 分 ， 

void getPerson(in string name, out Person p); , 

参数 可 以 标记 为 mn、out 和 inout, in 参数 的 值 是 从 客户 传递 给 所 调用 的 CORBA 对 象 ， 而 out 参数 
的 值 是 从 所 调用 的 CORBA 对 象 传递 给 客户 ， 标 记 为 inout 的 参数 很 少 使 用 ， 它 表示 参数 值 是 双向 传递 
的 。 如 果 方 法 没有 返回 值 ， 则 将 返回 类 型 指定 为 void。 图 5-8 给 出 了 使 用 这 些 关键 字 的 一 个 简单 的 例 
子 ， 在 图 8-2 的 第 7 行 ，newShape 的 参数 是 一 个 in 参数 ， 表 示 在 请 求 消息 中 参数 值 是 从 客户 传递 给 服 
务 器 的 。 返 回 值 提供 了 一 个 额外 的 out 参数 一 一 如 果 没 有 out 和 参数， 那么 可 以 声明 为 voids 

参数 可 以 是 任意 的 基本 类 型 ， 例 如 long 或 boolean ， 也 可 以 是 构造 类 型 之 一 ， 如 struct 或 array (下 
面 可 以 找到 更 多 的 IDL 基本 类 型 和 构造 类 型 )。 图 8-2 中 第 1、2 行 定义 了 两 个 stract。 顺 序 表 (se- 
quence) 和 数组 (array) 使 用 typedef 定义 ， 第 4 行 定义 了 一 个 长 度 为 100 的 类 型 为 Shape 的 顺序 表 。 
参数 传递 的 语义 如 下 : 

o 传递 CORBA TR: 任何 参数 ， 若 它 的 类 型 由 DL 接口 的 名 称 指定 ， 例 如 第 7 行 的 返回 值 

Shape， 那 么 该 参数 是 对 一 个 CORBA 对 象 的 引用 ,传递 的 是 远程 对 象 引用 的 值 。 
© 传递 CORBA 基本 类 型 和 构造 类 型 : 基本 和 构造 类 型 参数 是 通过 值 进行 拷贝 和 传递 的 。 当 它 到 
达 接 收 端 时 ， 接 收 者 进程 中 会 创建 一 个 新 的 值 。 例 如 ，( 第 7 行 中 ) struct GraphicalObject 作为 
. 参数 传递 ， 在 服务 器 上 会 产生 该 stuet 的 一 个 新 拷贝 。 

这 两 种 参数 传递 形式 在 (第 8 行 的 ) allShapes 方法 中 被 结合 起 来 了 ， 它 的 返回 类 型 是 Shape 类 型 
的 数组 个 远程 对 象 引 用 构成 的 数组 。 返 回 值 是 数组 的 拷贝 ， 而 这 个 数组 的 每 个 元 素 是 一 个 远程 
对 象 引用 。 

调用 语义 : 默认 情况 下 ，CORBA 中 的 远程 调用 具有 至 多 一 次 的 调用 语义 。 然 而 ，IDL 可 以 通过 使 
用 关键 字 oneway 来 指定 一 个 特定 方法 的 调用 具有 或 许 (maybe) 语义 。 客 户 在 调用 oneway 请 求 后 不 会 
阻塞 ， 这 种 方式 只 能 用 于 无 需 返 回 值 的 方法 中 。 关 于 oneway 请 求 的 例子 ,参见 8.3.5 节 末 尾 的 回调 
例子 。 

CORBA IDL 的 异常 : CORBA IDL 人 允许 在 接口 中 定义 异常 并 在 方法 中 抛 出 异常 。 可 选 的 raises 表达 
式 声明 用 户 定义 的 异常 ， 这 些 异常 可 以 被 抛 出 以 终止 方法 的 执行 。 下 面 是 来 自 图 8-2 的 例子 ， 


exception FullException{ }; 
Shape newShape(in GraphicalObject g) raises (FullException); 


方法 newShape 通过 raises 表达 式 声 明 它 可 能 会 抛 出 名 为 FullException 的 异常 ， 该 异常 在 接口 


ShapeList 中 定义 。 在 我 们 的 例子 中 ， 异 常 未 包含 变量 。 但 它 可 以 包含 变量 , 例如 : 
exception FullException {GraphicalObject g} ; 
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当 一 个 包含 变量 的 异常 被 抛 出 时 ， 服 务 器 会 使 用 这 些 变量 来 为 客户 返回 异常 的 上 下 文 信息 。 

CORBA 也 产生 与 服务 器 问题 (如 系统 忙 或 无 法 激活 对 象 ) 相关 的 、 与 通信 问题 和 客户 端 问题 相关 
的 系统 异常 。 客 户 程序 要 处 理 这 些 用 户 定义 的 异常 和 系统 异常 。 可 选 的 contest 表达 式 用 来 提供 字符 串 
名 字 到 字符 串 值 的 映射 。 关 于 context 的 解释 参见 Baker [1997]. 

IDL 数据 类 型 ， IDL 支持 15 个 基本 类 型 ， 包 括 short(16 位 ) 、long(32 位 )、 unsigned short, unsigned 
long, float(32 fif), double(64 fiż), char, boolean( TRUE, FALSE), octet(8 位 ) 和 any(any 可 以 用 来 
代表 任 一 基本 类 型 或 构造 类 型 ) 。 大 多 数 基本 类 型 的 常量 和 字符 串 常 量 可 以 通过 关键 字 const FAA, IDL 
提供 了 称 为 Object 的 特殊 类 型 ，Object 的 值 是 远程 对 象 引 用 。 如 果 参 数 或 结果 是 Object 类 型 ， 那 么 意 
味 着 相应 的 参数 可 以 指向 一 个 CORBA 对 象 。 

IDL 的 构造 类 型 ， 无 论 是 在 参数 中 还 是 在 结果 中 ， 都 是 值 传递 ， 在 图 8-4 中 有 详细 描述 。 所 有 的 
数组 和 顺序 表 作为 参数 使 用 时 都 必须 使 用 typedef 来 定义 。 任 何 基本 类 型 或 构造 类 型 都 不 能 包含 


引用 。 


sequence 


string 


enumerated 


union 





typedef sequence <Shape, 100> All; 
typedef sequence <Shape> All; 


有 界 或 无 界 的 Shape 顺序 表 


string name; 
typedef string<8> SmallString; 
有 界 或 无 界 的 字符 序列 


typedef octet uniqueld[12]; 


typedef GraphicalObject GO[10][8]; 


struct GraphicalObject { 
string type, 
Rectangle enclosing; 
boolean isFilled; 

8 


enum Rand 
(Exp, Number, Name); 


union Exp switch (Rand) { 
case Exp: string vote; 
case Number: long n; 
case Name: string s; 





定义 了 一 个 可 变 长 度 的 顺序 表 ， 成 员 为 一 个 特 
定 的 IDL 类 型 ， 可 以 指定 顺序 表 长 度 的 上 界 


定义 了 一 个 字符 序列 ， 以 空 字符 结束 ， 可 以 指 
定 长 度 的 上 界 


定义 了 一 个 多 维 的、 长 度 固 定 的 、 具 有 指定 类 
型 的 元 素 序列 


定义 了 一 个 记录 类 型 ， 它 包含 了 一 组 相关 的 
实体 


IDL 的 枚 举 类 型 将 一 个 类 型 名 称 映射 到 一 个 小 
型 的 整数 值 集合 


IDL 可 区 分 的 联合 类 型 允许 给 定 类 型 集中 的 一 
个 类 型 作为 参数 传递 ， 参 数 以 类 型 一 个 枚 举 变量 
开头 ， 它 指定 了 所 使 用 的 成 员 











图 8-4 IDL 构造 类 型 


CORBA 也 支持 以 值 的 形式 传递 非 CORBA 对 象 [OMG 2002c]。 这 些 非 CORBA 对 象 也 具有 属性 和 
方法 ， 从 这 个 意义 上 说 ， 它 们 与 对 象 类 似 。 但 它们 纯粹 是 本 地 对 象 ， 这 是 因为 它们 的 操作 无 法 被 远程 
调用 。 值 传递 的 方式 为 客户 和 服务 器 之 间 传 递 非 CORBA 对 象 的 拷贝 提供 了 途径 。 

在 实现 上 ， 通 过 为 IDL 增加 新 类 型 valuetype 来 表示 非 CORBA 对 象 。valuetype 是 一 个 增加 了 方法 
基调 〈 类 似 接 口中 的 那些 ) 的 结构 ，valuetype 的 参数 和 结果 都 使 用 值 传递 的 方式 。 也 就 是 说 ， 非 COR- 
BA 对 象 的 状态 被 传递 到 远程 目的 地 ， 并 在 目的 地 用 该 状态 产生 了 一 个 新 的 对 象 。 

新 对 象 的 方法 可 以 本 地 调用 ， 这 会 导致 它 与 原始 对 象 的 状态 不 一 致 。 传 递 方法 的 实现 不 是 那么 简 
单 ， 因 为 客户 和 服务 器 可 能 使 用 不 同 的 程序 语言 。 如 果 客 户 和 服务 器 都 使 用 Java 实现 ， 那 么 代码 可 以 
下 载 。 如 果 都 使 用 C++ ， 则 服务 器 和 客户 端 都 需要 有 必要 的 代码 。 

这 一 功能 对 在 客户 进程 中 放置 对 象 拷贝 以 便 它 能 接收 本 地 调用 是 很 有 用 的 。 但 这 与 以 值 的 方式 来 
传递 CORBA 对 象 并 不 相同 。 

属性 : IDL 接口 除了 方法 之 外 可 以 有 属性 。 属 性 类 似 于 Java 中 的 公共 类 字段 。 属 性 可 以 依据 需要 
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定义 为 readonly。 属 性 是 CORBA 对 象 私有 的 ,但 IDL 编译 器 会 自动 为 每 个 声明 的 属性 生成 一 对 访问 方 
法 : 一 个 用 来 取得 属性 的 值 ， 另 一 个 用 来 为 属性 赋值 。 对 于 readonly 的 属性 ， 则 只 提供 前 一 个 方法 。 
例如 ， 图 5-8 中 定义 的 PersonList 接口 包含 以 下 属性 的 定义 : 

readonly attribute string listname; 

AR: 如 上 面 8.2 节 定 义 的 那样 ，IDL 接口 可 以 通过 接口 继承 实现 扩展 。 例 如 ， 接 口 B 扩展 自 接 
口 A， 这 意味 着 B (相对 于 A) 会 增加 新 的 类 型 、 常 数 、 异 常 、 方 法 和 属性 。 一 个 扩展 的 接口 可 以 重 
定义 类 型 、 常 数 、 异 常 ， 但 不 允许 重 定义 方法 。 扩 展 类 型 的 值 作为 父 类 型 的 参数 值 或 者 结果 是 有 效 的 。 
例如 ， 类 型 B 作为 类 型 A 的 参数 值 或 结果 是 合法 的 。 另 外 ， 一 个 IDL 接口 可 以 扩展 多 个 接口 。 例 如 ， 
接口 Z 扩 展 了 B 和 (人 。 

interface A {}; . 

interface B: Af }; 

interface C {}; 

interface Z : B, C {}; 


这 意味 着 Z 具 有 B 和 C 的 所 有 成 分 (除了 那些 重 定义 的 ) ， 以 及 它 自 己 扩展 定义 的 。 

当 一 个 接口 (例如 Z) 扩展 了 多 个 接口 ,那么 它 可 能 从 两 个 不 同 的 接口 继承 了 相同 名 字 的 类 型 、 
常数 或 异常 。 例 如 ， 假 设 接口 B 和 C 都 定义 了 一 个 类 型 Q， 那 么 在 接口 Z 中 使 用 Q 时 会 产生 歧义 ， 除 
非 通过 B:: Q 或 者 C:: Q 来 区 分 。IDL 不 允许 从 两 个 不 同 接口 中 继承 具有 相同 名 称 的 方法 或 属性 。 

所 有 的 IDL 接口 都 继承 自 类 型 Object， 这 意味 着 所 有 的 接口 都 与 Object 类 型 兼容 ， 而 Object 类 型 
中 包含 有 远程 对 象 引 用 。 这 使 得 能 够 定义 这 样 的 IDL 操作 : 它们 以 任意 类 型 的 远程 对 象 引用 作为 参数 
或 返回 类 型 。 名 字 服 务 中 的 绑 定 和 解析 操作 就 是 这 样 的 例子 。 

IDL 类 型 标识 符 : 正如 即将 在 8. 3. 2 节 中 看 到 的 ，IDL 编译 器 为 IDL 接口 的 每 个 类 型 产生 一 个 类 型 
标识 符 。 例 如 ， 接 口 Shape ( 见 图 8-3) 的 IDL 类 型 为 : 

IDL: Whiteboard/Shape: 1.0 

这 个 例子 说 明 一 个 IDL 类 型 名 字 由 三 部 分 组 成 : IDL 前 缀 、 类 型 名 和 版 本 号 。 由 于 接口 标识 符 被 
用 作 访 问 接口 仓库 ( 相关 描述 参见 8. 3. 2 节 ) 中 接口 定义 的 主键 ， 程 序 员 必 须 确保 提供 的 从 标识 符 到 
接口 的 映射 是 唯一 的 。 程 序 员 可 以 使 用 IDL 前 缀 编译 指示 给 类 型 名 称 加 上 额外 的 前 级 ， 以 区 别 于 其 他 
接口 声明 中 的 类 型 名 称 。 

IDL 编译 指示 指令 ; 编译 指示 指令 为 IDL 接口 中 的 组 件 指定 附加 的 、 非 IDL 的 属性 (参见 Henning 
and Vinoski [1999] ) 。 这 些 属性 包括 : 指定 一 个 接口 只 能 在 本 地 使 用 ， 提 供 一 个 接口 仓库 外 的 值 。 每 
个 编译 指示 都 由 加 ragma 开头 并 指定 其 类 型 ， 例 如 : 

#pragma version Whiteboard 2.3 

CORBA 语言 映射 ”从 DL 中 的 类 型 到 一 个 给 定编 程 语言 的 类 型 映射 是 很 简单 的 。 例 如 ，IDL 中 的 
基本 类 型 被 映射 到 Java 中 相同 的 基本 类 型 ， 而 struct, enum, union 被 映射 成 Java 类 ，IDL 中 的 顺序 表 
和 数组 类 型 被 映射 成 Java 的 数组 类 型 。IDL 异常 被 映射 成 Java 类， 该 类 为 异常 字段 提供 实例 变量 。C++ 
的 映射 是 类 似 的 。 

但 是 ,将 IDL 参数 传递 语义 映射 到 Java 上 时 仍然 存在 一 些 困难 ， 尤 其 是 ，IDL 允许 方法 通过 输出 
参数 返回 多 个 独立 的 值 ， 但 Java 只 允许 返回 一 个 值 。Holder 类 是 用 来 克服 这 种 差别 的 ， 但 这 需要 程序 
员 使 用 Holder 类 来 实现 ， 因 此 不 是 直接 的 方式 。 例 如 ， 图 5-2 的 getPerson 方法 用 IDL 定义 如 下 : 

void getPerson{in string name, out Person p); 

在 Java 中 ， 与 之 等 价 的 方法 则 被 定义 为 : 

void getPerson(String name, PersonHolder p); 

客户 需要 提供 一 个 PersonHolder 的 实例 作为 方法 调用 的 参数 。Holder 类 中 存放 有 参数 值 的 实例 变 
量 , 在 调用 返回 时 客户 可 以 通过 RM 访问 这 些 变量 。 该 Holder 类 还 有 在 客户 和 服务 器 间 传 输 参 数 的 
方法 。 

尽管 CORBA 的 C++ 实现 能 够 相当 自然 地 处 理 out 和 inout BR, C++ 程序 员 也 会 遇 到 和 存储 管理 
相关 的 一 些 参 数 问 题 。 这 些 问 题 发 生 在 对 象 引 用 和 可 变 长 度 实体 〈 例 如 字符 串 或 者 顺序 表 ) 作为 参数 
传递 的 时 候 。 


第 8 章 分 布 式 对 象 和 组 件 ， 203 


例如 ， 在 Orbix [Baker 1997] 中 ，ORB 保持 远程 对 象 和 代理 的 引用 计数 ， 当 不 再 需要 它们 时 就 释 
放 掉 。 它 为 程序 员 提 供 了 释放 或 复制 远程 对 象 和 代理 的 方法 。 当 一 个 服务 器 的 方法 执行 完成 后 ，out 型 
的 参数 和 返回 结果 会 被 释放 ， 如 果 程 序 员 还 需要 使 用 它们 ， 则 必须 复制 一 份 。 例 如 ， 实 现 ShapeList 接 
口 的 C++ 伺服 器 (servant) 程序 必须 复制 由 allShapes 方法 返回 的 引用 。 当 传递 给 客户 的 对 象 引 用 不 再 
需要 时 必须 释放 掉 。 对 长 度 可 变 的 参数 也 应 用 类 似 的 规则 。 

一 般 地 ， 使 用 IDL 的 程序 员 不 仅 需要 学 习 IDL 的 表示 法 ， 还 需要 理解 IDL 的 参数 是 如 何 映射 到 实 
现 语言 的 参数 上 的 。 

异步 RMI CORBA 支持 异步 RMI， 人 允许 客户 以 非 阻 塞 的 方式 调用 CORBA 对 象 [OMG 2004e] 。 异 
步 RMI 是 在 客户 端 实现 的 。 因 此 ， 服 务 器 端 通常 并 不 清楚 是 同步 调用 还 是 异步 调用 。 (事务 服务 是 个 
例外 ， 它 确实 需要 知道 调用 是 同步 还 是 异步 的 。) 

异步 RMI 给 RMI 的 调用 语义 增加 了 两 个 含义 : 

© 回调 (callback) : 对 每 个 方法 调用 ， 客 户 使 用 额外 的 参数 来 传递 一 个 回调 引用 ， 这 样 ， 服 务 器 

能 将 执行 结果 放 人 该 回调 中 ; 

© #74 (polling): 服务 器 返回 一 个 valuetype 对 象 ， 可 以 用 该 对 象 进 行 轮 询 或 等 待 应 答 。 

异步 RM 的 体系 结构 允许 部 署 一 个 中 间 代 理 以 确保 请 求 的 执行 并 在 需要 时 存储 应 答 。 这 适合 用 于 
客户 可 能 会 临时 断 开 网 络 的 环境 ， 例 如 客户 在 火车 上 使 用 笔记 本 电脑 。 


8.3.2 CORBA 的 体系 结构 


CORBA 体系 结构 的 设计 支持 对 象 请 求 代 理 这 一 角色 ， 对 象 请 求 代理 使 得 客户 能 调用 远程 对 象 的 方 
法 ， 其 中 客户 和 服务 器 都 可 以 使 用 多 种 编程 语言 来 实现 。CORBA 体系 结构 的 主要 组 件 如 图 8-5 所 示 。 


实现 仓库 接口 仓库 
请 求 


伺服 器 A 
应 管 


图 8-5 CORBA 体系 结构 的 主要 组 件 

该 图 和 图 5-15 进行 比较 ,可 以 看 到 ，CORBA 体系 结构 包含 三 个 新 增 的 组 件 ， 对 象 适配器 、 实 现 
仓库 和 接口 仓库 。 

CORBA 提供 静态 调用 和 动态 调用 。CORBA 对 象 的 远程 接口 在 编译 时 已 知 ， 那 么 使 用 静态 调用 ， 
此 时 ， 可 以 使 用 客户 存根 和 服务 器 骨架 。 如 果 远 程 接口 在 编译 时 未 知 ， 就 需要 使 用 动态 调用 。 因 为 静 
态 调用 提供 的 编程 模型 更 加 自然 ， 所 以 大 多 数 程序 员 喜 欢 使 用 静态 调用 。 

接 下 来 先 讨论 CORBA 体系 结构 中 的 组 件 ， 与 动态 调用 相关 的 部 分 放 在 最 后 讨论 。 

ORB AK ORB 内 核 包 含 了 图 5-15 中 通信 模块 的 所 有 功能 。 另 外 ，ORB 内 核 还 提供 具有 以 下 功 
能 的 接口 : 

se 启动 和 停止 操作 ; l 

。 远程 对 象 引 用 和 字符 串 相互 转化 的 操作 ; 

。 为 使 用 动态 调用 的 请 求 提供 参数 列表 的 操作 。 

对 象 适配器 ”对 象 适 配器 架 起 了 具有 IDL 接口 的 CORBA 对 象 与 相应 编程 语言 的 伺服 器 类 接口 之 间 
的 桥梁 。 它 的 作用 还 包含 了 图 5-15 中 的 远程 引用 和 分 发 模块 。 对 象 适 配器 有 以 下 任务 : 

o 创建 CORBA 对 象 的 远程 对 象 引 用 (参见 8.3.3 节 ); 

。 通过 骨架 将 每 个 RMI 分 发 给 一 个 适当 的 伺服 器 ; 
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。 激活 、 去 活 伺 服 器 。 

对 象 适配器 为 每 个 CORBA 对 象 分 配 一 个 唯一 的 对 象 名 ,该 名 称 是 该 对 象 的 远程 对 象 引 用 的 一 部 
分 。 每 次 激活 对 象 时 使 用 相同 的 名 称 。 对 象 名 可 以 由 程序 指定 ， 也 可 以 由 对 象 适 配器 生成 。 每 个 COR- 
BA 对 象 通 过 它 的 对 象 适 配器 注册 ， 对 象 适配器 保存 了 将 CORBA 对 象 的 名 字 映 射 到 伺服 器 的 远程 对 
象 表 。 

每 个 对 象 适配器 也 有 它 自己 的 名 字 ， 该 名 称 是 它 所 管理 的 所 有 CORBA 对 象 的 远程 引用 的 一 部 分 。 
该 名 称 可 以 由 应 用 程序 指定 ， 也 可 以 自动 生成 。 

可 移植 对 象 适配器 ”CORBA 对 象 适配器 的 标准 称 为 可 移植 对 象 适 配器 〈Portable Object Adapter, 
POA) 。 称 之 为 可 移植 是 因为 它 允 许 应 用 程序 和 伺服 器 在 不 同 开 发 人 员 开 发 的 ORB 上 运行 【 Vinoski 
1998] 。 可 移植 性 是 通过 骨架 类 以 及 POA 和 伺服 器 之 间 交 互 的 标准 化 来 实现 的 。 

POA 支持 具有 两 类 不 同 的 生命 期 的 CORBA 对 象 : 

。 一 类 对 象 ， 其 生命 期 严格 限定 在 实例 化 伺服 器 的 进程 中 ; 

。 另 一 类 对 象 ， 其 生命 期 可 以 跨越 多 个 进程 中 的 实例 化 伺服 器 的 发 生 。 

前 者 具有 暂 态 对 象 引用 ， 而 后 者 具有 持久 对 象 引用 (参见 8. 3. 3 节 )。 

POA 人 允许 CORBA 对 象 透明 地 实例 化 。 此 外 ， 它 分 离 了 CORBA 对 象 的 创建 和 实现 这 些 对 象 的 伺服 
器 的 创建 。 服 务 器 应 用 程序 (如 具有 大 量 CORBA 对 象 的 数据 库 ) 可 以 在 CORBA 对 象 被 访问 时 按 需 创 
建 伺服 器 。 在 这 种 情况 下 ， 可 以 用 数据 库 主 键 作 为 对 象 名 字 ， 或 者 用 单一 的 伺服 器 来 支持 所 有 这 些 
对 象 。 

此 外 ， 也 可 以 为 POA 指定 策略 ,例如 ， 是 否 给 每 个 调用 提供 一 个 单独 的 线程 ， 对 象 的 引用 是 持久 
的 还 是 暂 态 的 ， 是 否 为 每 个 CORBA 对 象 提供 一 个 单独 的 伺服 器 。 默 认 情 况 下 ， 一 个 伺服 器 可 以 代表 该 
POA 中 所 有 的 CORBA 对 象 。 

请 注意 ，CORBA 的 实现 是 通过 伪 对 象 (pseudo-object) 来 提供 POA 和 ORB 内 核 的 功能 接口 ， 使 
用 伪 对 象 这 样 的 名 字 是 因为 它 不 能 像 普通 的 CORBA 对 象 那 样 使 用 。 例 如 ， 它 不 能 作为 RMI 的 参数 传 
递 。 但 它 确实 有 IDL 接口 ， 并 能 被 实现 为 库 。POA 伪 对 象 具有 一 个 激活 POAmanager 的 方法 、 一 个 
servant_to_reference 方法 (用 于 注册 CORBA 对 象 ) ORB 伪 对 象 包含 方法 init (在 初始 化 ORB 时 必须 
调用 该 方法 ) resolve_initial_references 方法 (用 于 查找 服务 ,例如 查找 名 字 服 务 和 根 POA) ， 还 有 其 他 
的 一 些 方法 用 于 远程 对 象 引 用 和 字符 串 的 相互 转化 。 

骨架 “骨架 类 是 由 IDL 编译 器 用 服务 器 端 语言 生成 。 如 5. 4. 2 节 所 描述 的 ， 远 程 方法 调用 通过 适当 
的 骨架 分 发 给 特定 的 伺服 器 ， 骨 架 负 责 对 请 求 消息 中 的 参数 解码 并 在 应 答 消 息 中 对 结果 和 异常 进行 编码 。 

客户 存根 /代理 ”客户 存根 /代理 用 客户 端 语 言 生成 。IDL 编译 器 通过 IDL 接口 为 客户 端 语言 生成 
代理 类 (如 果 客 户 端 使 用 面向 对 象 语言 ) 或 存根 过 程 (如 果 容 户 端 使 用 过 程 语言 )。 和 前 面 一 样 ， 客 
户 存根 /代理 负责 将 调用 请 求 中 的 参数 编码 并 将 应 答 消 息 中 的 结果 和 异常 解码 。 

实现 仓库 “实现 仓库 负责 按 需 激活 注册 的 服务 器 并 定位 当前 正在 运行 的 服务 器 。 当 注册 和 激活 服 
务 器 时 使 用 对 象 适配器 的 名 字 来 表示 服务 器 。 

实现 仓库 存储 对 象 适配器 名 字 到 包含 对 象 实现 的 文件 路 径 名 的 上 映射。 通常 ， 在 安装 服务 器 程序 时 ， 
将 对 象 的 实现 和 对 象 的 适配器 名 字 注册 到 实现 仓库 。 当 服务 器 中 对 象 的 实现 被 激活 时 ， 服 务 器 的 主机 
名 和 端口 号 被 加 入 到 映射 : 

实现 仓库 表 项 





[Hae | 对象 实 现 的 路 径 名 | 服务 器 的 主机 名 和 说 口号 





并 不 是 所 有 的 CORBA 对 象 都 需要 按 需 激活 。 一 些 对 象 ， 例 如 客户 创建 的 回调 对 象 ， 只 运行 一 次 ， 
当 它 不 再 被 需要 时 就 会 销毁 ， 这 些 对 象 不 使 用 实现 仓库 。 

实现 仓库 通常 允许 存储 关于 服务 器 的 额外 信息 ， 诸 如 访问 控制 信息 (允许 谁 来 激活 对 象 、 允 许 谁 
来 调用 对 象 的 操作 ) 。 实 现 仓库 也 可 以 通过 复制 信息 来 提供 可 用 性 或 容错 能 力 。 

接口 仓库 “接口 仓库 是 为 需要 它 的 客户 和 服务 器 提供 已 注册 的 IDL 接口 的 信息 。 对 于 一 个 给 定 类 
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型 的 接口 ， 接 口 仓库 可 以 提供 方法 的 名 字 、 方 法 中 参数 的 名 称 和 类 型 、 方 法 的 异常 信息 。 这 样 ， 接 口 
仓库 给 CORBA 增加 了 反射 机 制 。 假 如 客户 程序 接收 到 一 个 新 的 CORBA 对 象 的 远程 引用 ， 如 果 客 户 没 
有 该 对 象 的 代理 ， 那 么 它 可 以 向 接口 仓库 查询 对 象 的 方法 和 方法 要 求 的 参数 类 型 。 

当 IDL 编译 器 处 理 一 个 接口 时 ， 它 为 遇 到 的 每 个 IDL 类 型 分 配 一 个 类 型 标识 符 。 接 口 仓 库 为 每 个 
已 注册 的 接口 提供 接口 中 类 型 标识 符 到 接口 之 间 的 上 映射。 这样， 接口 的 类 型 标识 符 有 时 也 称 为 仓库 
ID， 因 为 它 可 以 用 作 将 IDL 接口 注册 到 接口 仓库 时 的 主键 。 

每 个 CORBA 远程 对 象 引用 中 有 一 项 ， 该 项 包含 了 远程 对 象 引 用 接口 的 类 型 标识 符 ， 这 使 得 拥有 
它 的 客户 能 够 通过 该 标识 符 在 接口 仓库 中 查询 接口 类 型 。 使 用 具有 客户 代理 和 IDL 骨架 的 静态 〈 普 
通 ) 调用 的 应 用 程序 不 需要 接口 仓库 。 并 不 是 所 有 的 ORB 都 提供 接口 仓库 。 

动态 调用 接口 ”如 5.5 节 建 议 的， 在 一 些 应 用 程序 中 ， 有 必要 在 不 知道 将 来 使 用 哪些 代理 类 的 情 
况 下 构造 客户 程序 。 例 如 ， 一 个 对 象 浏 览 器 可 能 需要 显示 一 个 分 布 式 系 统 中 各 种 服务 器 上 的 所 有 
CORBA 对 象 的 信息 。 这 种 情况 下 ， 由 一 个 程序 包含 所 有 这 些 对 象 的 代理 是 行 不 通 的 ， 尤 其 是 随时 间 流 
逝 ， 新 对 象 会 不 断 加 入 系统 。CORBA 不 允许 代理 类 像 在 Java RMI 中 那样 在 运行 时 下 载 。CORBA HF 
代 方 法 是 使 用 动态 调用 接口 。 

动态 调用 接口 允许 客户 动态 调用 远程 CORBA 对 象 。 这 在 无 法 使 用 代理 时 使 用 。 客 户 可 以 通过 接 
口 仓库 获得 给 定 CORBA 对 象 的 可 用 方法 的 信息 。 客 户 可 以 利用 这 些 信息 构造 共有 适当 参数 的 调用 并 
把 它 发 送 给 服务 器 。 

动态 骨架 如 5.5 节 解释 的 ， 为 服务 器 添加 一 个 在 服务 器 编译 时 CORBA 对 象 接口 未 知 的 CORBA 
对 象 是 有 必要 的 。 如 果 服 务 器 使 用 动态 上 骨架， 那么 服务 器 能 接收 对 没有 骨架 的 CORBA 对 象 的 接口 的 
调用 。 当 动态 骨架 接收 到 一 个 调用 时 ， 它 通过 检查 请 求 的 内 容 来 发 现 该 请 求 的 目标 对 象 、 待 调用 的 方 
法 和 人 参数， 然后 调用 目标 方法 。 

遗留 代码 术语 遗留 代码 是 指 并 非 用 分 布 式 对 象 设计 的 现 有 代码 。 遗 留 代码 可 以 通过 为 它 定义 
IDL 接口 并 提供 适当 的 对 象 适 配器 和 必需 的 骨架 来 将 它 构造 成 CORBA 对 象 。 


8. 3.3 CORBA 远程 对 象 引 用 
CORBA 为 远程 对 象 引 用 指定 格式 ， 无 论 该 远程 对 象 是 否 被 一 个 实现 仓库 所 激活 ， 这 种 格式 都 适 
用 。 使 用 这 一 格式 的 引用 称 为 互 操 作对 象 引 用 (Interoperable Object Reference, IOR), FMM AZT 
Henningf 1998 ] ， 该 图 包含 了 一 个 IOR 的 详细 说 明 
IOR 格式 
IDL 接口 类 型 ID 协议 和 地 址 细节 对 象 主键 
接口 仓库 标识 符 或 类 型 TOP | 主机 域名 | 端口 号 | 适配器 名 称 | HRA 








逐个 看 一 下 各 个 字段 : 

e IOR 的 第 一 个 字段 指定 了 CORBA 对 象 的 IDL 接口 的 类 型 。 请 注意 ， 如 果 ORB 有 一 个 接口 仓库 ， 
那么 这 个 类 型 名 称 也 是 DL 接口 的 接口 仓库 标识 符 ， 这 样 允许 在 运行 时 检索 接口 的 IDL 定义 。 

。 第 二 个 字段 指定 了 传输 协议 以 及 该 协议 所 需 的 细节 以 便 识别 服务 器 。 特 别 是 ， 互 联网 ORB 间 
协议 (Internet Inter-ORB Protocol, HOP) {EHT TCP, 在 TCP 中 ， 服 务 器 地 址 由 主机 域名 和 端 
口号 组 成 [OMG 2004a] 。 

。 第 三 个 字段 是 ORB 用 来 识别 CORBA 对 象 的 。 它 包含 了 服务 器 上 对 象 适 配器 的 名 字 和 对 象 适 配 
器 指定 的 CORBA 对 象 的 名 称 。 

CORBA 对 象 的 暂 态 IOR 仅 持续 到 拥有 这 些 对 象 的 进程 结束 ， 而 持久 IOR 在 CORBA 对 象 被 多 次 激 

活 的 过 程 中 一 直 存 在 。 暂 态 IOR 中 有 CORBA 对 象 所 在 服务 器 的 详细 地 址 ， 而 持久 IOR 包含 了 注册 它 
的 实现 仓库 的 详细 地 址 。 但 无 论 哪 种 情况 ， 客 户 ORB 都 会 根据 IOR 提供 的 地 址 细节 将 请 求 消息 发 往 对 
应 的 服务 器 。 下 面 介绍 在 这 两 种 方式 下 如 何 利用 IOR 来 定位 代表 CORBA 对 象 的 伺服 器 。 

暂 态 IOR， 服 务 器 ORB 内 核 接收 到 请 求 消息 ， 该 消息 包含 对 象 适 配器 名 称 和 目标 对 象 名 称 。ORB 
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使 用 对 象 适配器 名 称 定位 对 象 适配器 ， 对 象 适配器 使 用 对 象 名 称 定 位 伺服 器 。 

持久 IOR: 实现 仓库 接收 请 求 ， 它 从 请 求 的 IOR 中 抽取 出 对 象 适配器 名 称 。 如 果 对 象 适配器 名 称 
在 实现 仓库 的 表 中 ， 如 果 必 要 的 话 ， 它 根据 表 项 中 指定 的 主机 地 址 去 尝试 激活 CORBA 对 象 。 一 旦 
CORBA 对 象 被 激活 ， 实 现 仓库 就 将 CORBA 对 象 的 详细 地 址 返回 给 客户 ORB， 此 地 址 作为 RMI 请 求 消 
息 的 目的 地 ， 请 求 消息 中 包含 了 对 象 适配器 名 称 和 对 象 名 。 这 使 得 服务 器 ORB 内 核能 定位 对 象 适 配 
器 ， 而 对 象 适配器 使 用 对 象 名 定位 伺服 器 〈 如 前 所 述 ) 。 

IOR 的 第 二 个 字段 可 以 重复 ， 从 而 指定 多 个 目的 地 的 主机 域名 、 端 口号 ， 这 样 允 许 对 象 或 者 实现 
仓库 被 复制 到 几 个 不 同 的 位 置 。 

请 求 - 应 答 协议 中 的 应 答 消 息 所 包含 的 头 信息 使 得 上 述 关于 持久 IOR 的 过 程 能 得 以 执行 。 尤 其 是 ， 
它 有 一 个 状态 项 来 表明 请 求 是 否 可 以 转发 到 另 一 个 服务 器 ， 如 果 可 以 ， 则 应 答 消息 中 就 包含 有 IOR 信 
息 ,该 IOR 指定 了 新 近 被 激活 对 象 的 服务 器 地 址 。 


8.3.4 CORBA 服务 


CORBA 包含 分 布 式 对 象 所 需 的 服务 的 规约 。 尤 其 是 ， 名 字 服 务 是 ORB 都 需要 的 ， 正 如 我 们 将 在 
8.3.5 节 的 编程 例子 中 看 到 的 。 所 有 服务 的 文档 索引 都 可 以 在 OMG 的 网 站 [ www. omg, org] 上 找到 。 
一 些 CORBA 服务 的 描述 请 参见 Orfali 等 [1996, 1997], Æ 8-6 给 出 了 CORBA 关键 服务 的 小 结 ， 关 于 
这 些 服务 的 更 多 细节 可 以 在 网 站 [www. cdk5. net/corba] 上 找到 。 
































| CORAM 作 用 更 多 资料 
名 字 服 务 支持 CORBA 命 名 ， 尤 其 是 在 给 定 的 名 字 上 下 文中 ， 将 名称 [OMG 2004b] 
| 映射 到 远程 对 象 引用 参见 第 9 章 ) 
交易 服务 名 字 服 务 允许 通过 名 称 定位 对 象 ， 而 交易 服务 是 通过 属性 [OMG 2000a, 
定位 对 象 。 也 就 是 说 ， 它 是 个 目录 服务 ， 底 层 数据 库 管 理 服 Henning and 
务 类 型 和 相关 属性 到 远程 对 象 引用 的 映射 vinoski 1999] 
事件 服务 允许 感 兴趣 的 对 象 使 用 普通 的 CORBA 远 程 方法 调用 将 通知 [Farley 1998, 
发 送 给 订阅 者 〈 参 见 第 6 章 可 了 解 更 多 有 关 事件 服务 的 内 容 ) OMG 2004c] 
| 通知 服务 扩展 事件 服务 ， 允 许 定义 表达 感 兴趣 事件 的 过 滤器 ， 多 许 [OMG 2004d] 
= 定义 底层 事件 通道 的 可 靠 性 和 排序 特性 | 
安全 服务 支持 各 种 安全 机 制 ， 包 括 认 证 、 访 问 控 制 、 安 全 通信 、 [Blakely 1999, 
审计 和 防止 抵赖 (参见 第 11 章 ) Baker 1997, 
OMG 2002b] | 
事务 服务 支持 创建 平面 和 焦 套 事务 〈 相 关 定 义 参见 第 16、17 章 ) [OMG 2003] | 
并 发 控制 服务 使 用 锁 来 实施 对 CORBA 对 和 象 访问 的 并 发 控制 “可 以 通过 [OMG 2000b] 
事务 服务 使 用 ， 也 可 单独 使 用 ) 
持久 状态 服务 为 CORBA 提 供 对 象 的 持久 存储 ， 保 存 并 恢复 CORBA 对 象 [OMG 2002d] 
的 状态 “实现 从 实现 仓库 中 检索 获得 》 
生命 周期 服务 定义 创建 、 删 除 、 拷 贝 、 移 动 CORBA 对 象 的 约定 ， 例 如 ， [OMG 2002e] 
如 何 使 用 工厂 来 创建 对 象 











图 8-6 CORBA 服务 


8.3.5 CORBA 客户 和 服务 器 实例 


本 节 概 述 使 用 图 8-2 中 的 IDL 接口 Shape、ShapeList 生成 客户 和 服务 器 程序 的 必需 步 又。 之 后 讨论 
CORBA 中 的 回调 。 我 们 使 用 Java 作为 客户 和 服务 器 编程 语言 ， 其 他 的 语言 也 是 类 似 的 过 程 。CORBA 
接口 使 用 接口 编译 器 idj 来 生成 以 下 各 项 ， 

。 等 价 的 Java 接口 一 每 个 IDL 接口 生成 两 个 接口 。 第 一 个 Java 接口 的 名 字 以 Operations 结束 ， 

它 仅 定义 了 IDL 接口 中 的 操作 。 第 二 个 Java 接口 与 IDL 接口 名 称 相同 ， 并 实现 第 一 个 接口 中 的 
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操作 和 CORBA 对 象 使 用 的 必要 接口 。 例 如 ，IDL 接口 ShapeList 产生 了 两 个 Java 接口 一 一 
ShapeListOperations 和 ShapeList ， 如 图 8-7 所 示 。 
为 每 个 IDL 接口 生成 服务 骨架 。 骨 架 类 的 名 称 以 POA 结束 ， 例 如 ShapeListPOA 。 
。 为 每 个 IDL 接口 生成 一 个 代理 类 或 客户 存根 ， 这 些 类 的 名 字 以 stub 结束 ， 例 如 _ShapeStub。 
。 为 通过 IDL 接口 定义 的 struct 生成 一 个 Java 类 。 在 我 们 的 例子 中 ， 生 成 了 类 Rectangle, Graphical- 
Object。 类 中 包含 了 为 对 应 struct 中 的 每 个 字段 生成 的 实例 变量 声明 和 一 对 构造 器 ， 但 没有 方法 。 
为 IDL 接口 中 定义 的 每 个 类 型 生成 一 个 helper 类 和 一 个 holder 类 。helper 类 包含 narrow 方法 ， 
其 用 于 将 给 定 的 对 象 引用 下 转型 为 当前 对 象 所 在 类 层次 中 更 下 面 的 位 置 。 例 如 ，ShapeHelper 
类 中 的 narrow 方法 将 它 下 转型 为 Shape 类 。Holder 类 处 理 out 和 inou 型 参数 ， 这 些 参 数 不 能 直 
接 映 射 到 Java 中 。 关 于 holder 类 的 例子 ， 参 见习 题 8. 9。 

public interface ShapeListOperations { 
Shape newShape(GraphicalObject g) throws ShapeListPackage.FullException; 


Shape[] allShapes(); 
int getVersion(); 


J 


public interface ShapeList extends ShapeListOperations, org.omg.CORBA. Object, 
org.omg.CORBA. portable. IDLEntity { } 











J 





图 8-7 通过 idlj 从 CORBA 接口 ShapeList 生成 的 Java 接口 


服务 器 程序 “服务 器 程序 应 该 包含 一 个 或 多 个 IDL 接口 的 实现 。 对 于 用 面向 对 象 语言 (例如 Java 
或 C++ ) 编写 的 服务 器 ， 这 些 接口 被 实现 为 伺服 器 类 。CORBA 对 象 是 伺服 类 的 实例 。 

当 一 个 服务 器 创建 一 个 伺服 器 类 的 实例 的 时 候 ， 必 须 使 用 POA 注册 该 实例 ， 这 样 将 一 个 实例 变 成 了 
CORBA 对 象 ， 并 给 它 一 个 远程 对 象 引 用 。 在 这 个 过 程 完成 前 ，CORBA 对 象 将 接收 不 到 远程 调用 。 细 心 
研究 第 5 章 的 读者 会 意识 到 用 POA 注册 的 对 象 使 得 对 象 被 记录 在 与 远程 对 象 表 等 价 的 CORBA 数据 结构 中 。 

在 这 个 例子 中 ， 服 务 器 包含 接口 Shape 和 ShapeList 的 实现 ， 它 们 以 两 个 伺服 器 类 的 形式 存在 ， 同 
时 还 有 一 个 在 main 方法 中 包含 了 初始 化 (参见 5.4.2 节 ) 设置 的 服务 器 类 。 

伺服 器 类 :伺服 器 类 扩展 了 相应 的 骨架 类 并 通过 等 价 的 Java 接口 中 定义 的 方法 基调 实现 了 IDL 接 
口中 的 方法 。 实 现 ShapeList 接口 的 伺服 器 类 命名 为 ShapeListServant， 当 然 也 可 以 选择 其 他 名 称 。 图 8-8 
给 出 了 程序 代码 。 在 第 1 行 中 ,方法 newShape 是 个 工厂 方法 ， 因 为 它 创建 了 Shape 对 象 。 为 了 让 一 个 
Shape 对 象 变 成 CORBA 对 象 ， 必 须 通过 第 2 行 的 servant_to_reference 方法 ， 并 用 POA 来 注册 该 Shape 
对 象 ， 该 方法 使 用 了 根 POA 的 引用 ， 该 根 POA 是 在 创建 伺服 器 时 通过 构造 器 传递 获得 的 。 这 个 例子 的 
IDL 接口 、 客 户 和 服务 器 类 的 完整 版 本 可 以 从 [www. cdk5. net/corba] 找到 。 

服务 器 : 图 8-9 给 出 了 服务 器 类 ShapeListServer 的 main 方法 。 它 首先 创建 和 初始 化 ORB (第 1 
行 )， 然 后 取得 根 POA 的 引用 并 激活 POAManager (第 2 行 和 第 3 行 )。 接 下 来 创建 ShapeListServant 的 
实例 ， 该 实例 仅仅 是 个 Java 对 象 〈 第 4 行 ) ， 它 传递 了 一 个 对 根 POA 的 引用 。 接 着 ,把 该 实例 注册 到 
POA， 从 而 成 为 一 个 CORBA WR (第 5 行 ) 。 完 成 此 操作 后 ， 它 将 此 服务 器 注册 到 名 字 服 务 ， 然 后 等 
待 客户 请 求 的 到 达 (第 10 77). 

服务 器 首先 使 用 NamingContextHelper (第 6 行 ) 在 名 字 服 务 中 获取 根 名 字 上 下 文 ， 和 名 字 上 下 文 
定义 了 一 组 和 名字 使 用 的 范围 (在 该 上 下 文 内 ， 每 个 名 字 必 须 是 唯一 的 ) 。 接 着 ， 服 务 器 创建 一 个 
NameComponent 〈 第 7 行 ) ， 它 是 CORBA 中 表示 一 个 名 字 的 对 象 ， 它 由 名 字 和 类 型 两 部 分 构成 ， 类 
型 部 分 是 纯 描述 性 的 (名 字 服 务 器 并 不 解释 这 部 分 ， 它 只 被 应 用 程序 使 用 ) 。 名 字 可 能 是 复合 的 ， 它 
表示 到 达 名 字 图 (naming graph) 中 的 对 象 的 一 条 路 径 。 在 这 个 例子 中 ,没有 使 用 复合 命名 ,第 8 行 
中 定义 的 路 径 由 单一 名 字 组 成 。 最 后 ， 服 务 器 使 用 名 字 服 务 的 rebind 方法 第 9 行 ), 将 名 字 和 远程 
对 象 引用 对 注册 到 适当 的 上 下 文中 。 客 户 执行 相同 的 步 又， 除了 使 用 的 是 resolve 方法 之 外 ， 如 
图 8-10 第 2 行 所 示 。 
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import org.omg. CORBA. *; 
import org.omg.PortableServer.POA; 
class ShapeListServant extends ShapeListPOA { 
private POA theRootpoa; 
private Shape theList[]; 
private int version; 
private static int n=0; 
public ShapeListServant(POA rootpoa){ 
theRootpoa = rootpoa; 
/ initialize the other instance variables 
} 
public Shape newShape(GraphicalObject g) throws ShapeListPackage FullException { 1 
versiont +; 
Shape s = null; 
ShapeServant shapeRef = new ShapeServant( g, version); 
try { 
orgomg. CORBA. Object ref = theRootpoaservant_to_reference(shapeRef}; 2 
s = ShapeHelper.narrow(ref); 
} catch (Exception e) {} 
ifin >=100) throw new ShapeListPackage. FullException(), 
theList[n++] = s; 
return s; 


} 
public Shape{] aliShapes(){ ... } 
public int getVersion() {... } 

$ 


图 8-8 CORBA 接口 ShapeList 的 Java 服务 器 程序 : ShapeListServant 类 











import org.omg.CosNaming. *; 
import org.omg.CosNaming.NamingContextPackage.*; 
import org.omg. CORBA. *; 
import org.omg.PortableServer.*; 
public class ShapeListServer { 
public static void main(String args[]) { 
iry{ 


ORB orb = ORB. init(args, null); 
POA rootpoa = POAHelpernarrow(orbresolve_initial refererves("RootPOA")), 
rootpoa.the_POAManager().activate(); 
ShapeListServant SLSRef = new ShapeListServant(reotpoa); 
org.omg.CORBA. Object ref = rootpoa.servant_to_1 
ShapeList SLRef = ShapeListHelper.narrow(rep); 
org.omg. CORBA. Object oljRef = orb.resolve_initial_references("NameService"); 
NamingContext ncRef = NamingContextHelper.narrow(objRef); 
NameComponent nc = new NameComponent("ShapeList", ""); 
NameComponent path[] = {nc}; 
ncRef.rebind(path, SLRef); 
orb.run(Q; 
} catch (Exception e) {...} 
} 
天 


tin te tN 
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Lond 











图 8-9 Java ShapeListServer 类 


客户 程序 ”图 8-10 是 一 个 客户 程序 的 示例 。 该 程序 首先 创建 和 初始 化 一 个 ORB (第 1 行 )， 然 后 ， 联 
系 名 字 服 务 使 用 resolve 方法 来 获取 远程 ShapeList 对 象 的 引用 (第 2 行 )。 之 后 ,调用 了 allShapes 方法 《第 3 
行 ) 获取 当前 服务 器 上 所 有 Shapes 的 远程 对 象 引 用 顺序 表 。 接 着 ， 调 用 getAllState 方法 (第 4 行 ), 使 用 返 
回 的 远程 对 象 引 用 顺序 表 的 第 一 个 对 象 引用 作为 参数 ， 返 回 的 结果 作为 GraphicalObject 类 的 一 个 实例 。 

getAllState 方法 似乎 与 之 前 我 们 讲 到 的 CORBA 中 对 象 不 能 以 值 的 方式 传递 的 说 法 互相 了 矛盾， 因为 
这 里 客户 和 服务 器 处 理 的 都 是 类 GraphicalObject 的 实例 。 实 际 上 ， 这 并 不 矛盾 : CORBA 对 象 返回 一 个 
struet， 由 于 客户 使 用 不 同 的 语言 使 得 它 看 起 来 有 所 不 同 。 例 如 ， 如 果 客 户 使 用 C++， 那么 客户 看 到 的 
就 是 stmuet。 即 使 在 Java 中 ， 生 成 的 类 GraphicalObject th HAE struct, AA ERATE. 


第 8 章 分 布 式 对 象 和 组 件 - 209 





import org.omg.CosNaming. *; 
import org.omg.CosNaming. Naming ContextPackage. *; 
import org.omg. CORBA.*; 
public class ShapeListClient{ 
public static void main(String args[]) { 
try{ 
ORB orb = ORB. init(args, null); l 
org.omg.CORBA. Object objRef = 
orb.resalve_initial_references("NameService"), 
NamingContext ncRef = NamingContextHelper.narrow(objRef); 
NameComponent nc = new NameComponent("ShapeList", ""); 
NameComponent path [] = { nc }; 
ShapeList shapeListRef = 
ShapeListHelper.narrow(ncRef-resolve(path)); 
Shapel] sList = shapeListRef.allShapes(); 
GraphicalObject g = sList[0].getAliState(); 
} catch(org.omg. CORBA.SystemException e) {...} 


2 
| 
图 8-10 CORBA 接口 Shape 和 ShapeList 的 Java 客户 程序 

客户 程序 应 该 始终 捕获 CORBA SystemExceptions， 它 报告 由 于 分 布 导致 的 错误 〈 第 5 行 )。 客 户 程 
序 也 要 捕获 IDL 接口 中 定义 的 异常 ,例如 在 newShape 方法 中 抛 出 的 FullException, 

这 个 例子 也 阐述 了 narrow 操作 的 使 用 : 名 字 服 务 的 resolve 操作 返回 Object 类 型 的 值 ， 然 后 这 个 类 
型 通过 narrow 转换 成 所 需 的 特定 类 型 〈ShapeList) 。 

GW CORBA 中 回调 的 实现 和 5. 5.1 节 中 Java RMI 的 方式 类 似 。 例 如 ，WhiteboardCallback 接口 可 
以 这 样 定义 : 

interface WhiteboardCallback { 

oneway void callback(in int version); 


wm fw WN 








BR 

该 接口 被 客户 实现 为 一 个 CORBA 对 象 ， 这 使 得 服务 器 在 新 对 象 加 入 时 可 以 给 客户 发 送 一 个 版 本 
号 。 但 是 在 服务 器 这 样 做 之 前 ， 客 户 必须 通知 该 对 象 的 远程 对 象 引 用 所 在 的 服务 器 。 为 了 实现 这 样 的 
操作 ，ShapeList 接口 需要 额外 的 方法 ， 诸 如 下 面 的 register、deregister: 


int register(in WhiteboardCallback callback); 

void deregister(in int callbackid); 

在 客户 获得 ShapeList 对 象 的 引用 和 创建 WhiteboardCallback 的 实例 之 后 ， 客 户 使 用 ShapeList 的 reg- 
ister 方 法 通知 服务 器 它 需 要 接收 回调 。 服 务 器 的 ShapeList 对 象 负责 维护 感 兴趣 的 客户 列表 ， 并 在 新 的 
对 象 添加 后 增加 版 本 号 ， 然 后 通知 每 个 感 兴趣 的 客户 。callback 方法 被 声明 为 oneway ， 这 样 服务 器 可 以 
以 异步 的 方式 调用 ， 从 而 避免 了 它 通知 每 个 客户 而 造成 的 延 时 。 


8.4 ”从 对 象 到 组 件 


分 布 式 对 象 中 间 件 已 经 大 量 部 署 于 各 种 应 用 ,包括 第 1 章 中 提 到 的 领域 : 金融 和 商业 、 卫 生 保 健 、 
教育 、 交 通 和 物流 等 。CORBA 和 相关 平台 所 包含 的 技术 已 被 证 明 在 处 理 分 布 式 编程 相关 的 关键 问题 上 
是 成 功 的， 尤其 是 解决 分 布 式 系统 软件 的 异 构 性 、 可 移植 性 和 互 操 作 等 相关 的 问题 。 这 些 平台 上 的 一 
组 服务 也 用 来 支持 开发 安全 、 可 靠 的 软件 系统 。 

然而 ， 人 们 也 发 现 了 很 多 缺点 ， 这 导致 了 基于 组 件 的 方法 的 出 现 ， 可 以 把 它 看 做 是 分 布 式 对 象 计 
算 的 自然 演化 。 在 深入 探讨 分 布 式 系统 所 采用 的 基于 组 件 的 方法 之 前 ， 本 节 将 先 通过 讨论 促使 向 基于 
组 件 的 方式 过 渡 的 需求 来 阐述 这 一 转变 并 对 组 件 进 行 定义 。 随 后 ， 在 8. 5 节 会 对 比 研究 两 个 组 件 技术 
的 实例 : 企业 JavaBeans 和 Fractal。 

面向 对 象 中 间 件 的 问题 如 前 所 述 ， 基 于 组 件 方式 的 出 现 是 为 了 应 对 分 布 式 对 象 计算 中 出 现 的 问 
题 ， 这 些 问 题 在 8. 1 节 已 经 列 出 ， 下 面 进 行 详细 讨论 。 

隐 式 依赖 ,分布 式 对 象 用 它 提 供给 分 布 式 环境 的 接口 向 外 提供 契约 。 契 约 是 对 象 的 提供 者 和 对 象 
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使 用 者 对 期 望 行为 的 一 种 具有 约束 性 的 协定 。 它 常常 假定 该 接口 对 部 署 和 使 用 这 个 对 象 提供 了 一 个 完 
全 的 契约 。 然 而 ， 实 际 情况 并 不 是 这 样 。 问 题 在 于 对 象 的 内 部 〈 被 封装 的 ) 行为 是 隐藏 的 。 例 如 ， 一 
个 对 象 可 能 和 另外 一 个 对 象 或 相关 的 分 布 式 系统 服务 通过 一 个 远程 方法 调用 或 其 他 通信 范 型 通信 。 分 
别 回顾 一 下 图 8-9 和 图 8-10 中 的 CORBA 服务 器 程序 和 客户 程序 。 我 们 看 到 服务 器 向 客户 发 出 一 个 回 
调 ， 但 这 显然 不 是 通过 服务 器 已 定义 的 接口 来 实现 的 。 而 且 ， 虽 然 客 户 和 服务 器 都 与 名 字 服 务 通信 ， 
但 从 对 象 的 外 部 〈 即 接口 提供 的 ) 看 不 到 这 一 过 程 。 

一 般 来 说 ， 一 个 给 定 对 象 能 任意 调用 其 他 应 用 层 对 象 或 提供 名 字 、 持 久 化 、 并 发 控制 、 事 务 、 安 
全 等 的 分 布 式 系 统 服务 ， 这 些 从 配置 的 外 部 视图 是 看 不 到 的 。 分 布 式 配 置 中 的 隐 式 依赖 使 得 难以 保证 
配置 的 安全 组 合 ， 难 以 用 一 个 对 象 替换 另 一 个 以 及 难以 让 第 三 方 开发 者 实现 分 布 式 配置 中 的 特定 元 素 。 

需求 : 从 这 一 点 上 说 ， 不 仅 需 要 清晰 地 指定 对 象 提 供 的 接口 ， 还 需要 指定 对 象 在 分 布 式 配 置 中 依 
赖 的 其 他 对 象 。 

与 中 间 件 的 交互 : 尽管 分 布 式 对 象 中 间 件 有 透明 性 的 目标 ,但 它 还 是 把 与 中 间 件 体系 结构 相关 的 
很 多 相对 底层 的 细节 暴露 给 了 程序 员 。 仍 然 通过 图 8-9 和 图 8-10 的 客户 - 服务 器 例子 来 阐明 这 一 点 。 
尽管 这 是 一 个 相当 简单 的 应 用 ， 它 也 包含 了 很 多 对 于 应 用 操作 来 说 是 非常 基础 的 CORBA 相关 调用 ， 
这 包括 与 名 字 服 务 相 关 的 调用 《如 上 所 述 ) ， 以 及 与 POA 和 ORB 内 核 相 关 的 调用 。 在 更 复杂 的 例子 
中 ， 可 能 会 包含 关于 对 象 引 用 的 创建 和 管理 、 对 象 生命 周期 管理 、 激 活 和 去 活 策略 、 持 久 状态 管理 、 
底层 平台 资源 (例如 线程 ) 的 映射 策略 等 任意 复杂 的 代码 。 所 有 的 这 些 都 很 快 干扰 了 代码 的 主要 目 
的 ， 即 创建 一 个 特定 的 应 用 。 这 从 上 述 的 例子 中 也 能 得 到 印证 ， 上 例 中 ， 实 际 与 白板 应 用 相关 的 代码 
很 少 ， 这 些 代码 和 与 分 布 式 系统 相关 的 代码 交织 在 一 起 。 

需求 : 简化 分 布 式 应 用 的 编程 ， 提 供 中 间 件 框架 相关 操作 代码 和 应 用 相关 代码 的 关注 完全 分 离 ， 
使 得 程序 员 只 将 注意 力 集中 在 应 用 上 。 

缺少 对 分 布 式 开发 的 关注 点 的 分 离 : 使 用 分 布 式 对 象 中 间 件 的 程序 员 需 要 显 式 地 处 理 非 功能 性 的 
问题 ， 例 如 安 人 全、 事务、 协作 和 复制 。 在 CORBA 和 RM 等 技术 中 ， 这 些 功能 是 通过 在 对 象 中 捅 人 对 
相关 分 布 式 系 统 服务 的 适当 调用 来 实现 的 。 这 导致 两 个 不 良 影响 : 

。 程序 员 必 须 熟 悉 所 有 相关 分 布 式 系统 服务 的 全 部 细节 知识 ; 

。 一 个 给 定 对 象 的 实现 中 包括 应 用 程序 代码 、( 如 上 所 述 的 ) 分 布 式 系统 服务 调用 、 底 层 中 间 件 

接口 调用 ， 这 增加 了 分 布 式 系统 编程 的 复杂 性 。 

ER: 上 面 提 到 的 关注 点 分 离 应 该 扩展 到 所 有 的 分 布 式 系统 服务 ， 应 尽量 使 这 些 服务 的 复杂 性 对 
程序 员 隐 藏 。 

没有 部 署 支持 : 像 CORBA 和 Java RMI 这 些 技术 能 开发 具有 任意 分 布 式 配 置 的 对 象 ， 但 是 不 支持 
对 这 些 配置 的 部 署 。 对 象 必须 手动 地 部 署 到 各 台 机 器 上 ， 尤 其 对 大 规模 部 署 而 言 ， 这 是 一 个 烦人 且 容 
易 出 错 的 过 程 ， 大 量 对 象 要 分 布 在 大 规模 (可 能 异 构 的 ) 结 点 上 。 除 了 对 对 象 进 行 物理 部 署 ， 还 需要 
将 其 激活 并 恰当 地 绑 定 到 其 他 对 象 上 。 由 于 缺少 部 署 支持 ， 开 发 者 必然 会 采用 随机 的 部 署 策 略 ， 这 对 
于 其 他 环境 是 不 可 移植 的 。 

需求 : 中 间 件 平台 应 该 为 分 布 式 软件 提供 内 在 的 部 署 支持 ， 这 样 分 布 式 软件 可 以 像 在 一 台 机 器 上 
安装 和 部 署 软 件 一 样 ， 对 用 户 隐藏 部 署 的 复杂 性 。. 

这 四 个 需求 导致 了 分 布 式 系统 开发 中 基于 组 件 方法 的 出 现 ， 同 时 导致 了 基于 组 件 的 中 间 件 (com- 
ponent-based middleware) 的 出 现 ， 包 括 被 称 为 应 用 服务 器 (application server) 的 中 间 件 风格 。 

尽管 基于 组 件 的 方法 只 是 在 近 些 年 受到 关注 ， 它 的 源头 却 可 以 追溯 到 之 前 在 分 布 式 系统 中 解决 重 
配置 的 项 目 ， 例 如 伦敦 帝国 理工 学 院 的 Conic 项 目 [Magee and Sloman 1989] 。 

组 件 的 本 质 ”我 们 采用 Szyperski 在 他 关于 组 件 软件 的 书 【Szyperski 2002] 中 提出 的 组 件 的 定义 : 

组 件 : 软件 组 件 是 一 个 具有 契约 化 指定 接口 和 仅 有 显 式 上 下 文 依赖 的 组 合 单元 。 

在 这 个 经 典 定义 中 , “ 仅 ” 是 指 任何 上 下 文 的 依赖 都 应 该 是 显 式 的 ， 也 就 是 ， 不 存在 隐 式 的 
依赖 。 

软件 组 件 和 分 布 式 对 象 很 相似 ， 因 为 它们 都 是 软件 构造 的 封装 单元 。 但 是 ， 一 个 给 定 的 组 件 不 仅 
要 指定 它 提 供给 外 部 世界 的 接口 ， 还 要 指明 它 在 分 布 式 环境 中 与 其 他 组 件 的 依赖 。 依 赖 也 通过 接口 表 
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示 。 更 具体 来 说 ， 组 件 通过 净 约 来 指定 ， 该 契约 包括 ; 
。 一 组 提供 的 接口 ， 这 里 的 接口 是 指 组 件 提 供给 其 他 组 件 的 服务 ; 
。 一 组 所 需 的 接口 ， 即 本 组 件 对 其 他 组 件 的 依赖 ， 这 些 组 件 必 须 存在 并 与 本 组 件 相 连 ， 以 便 本 组 
件 正确 工作 。 

对 于 一 个 给 定 的 组 件 配置 ， 每 个 所 需 的 接口 必须 绑 定 到 另 一 个 组 件 提供 的 接口 上 ， 这 被 称 为 由 组 
件 、 接 口 、 接 口 间 关联 构成 的 软件 体系 结构 (software architecture) 。 图 8-11 是 这 种 配置 的 一 个 例子 ， 
该 例 是 一 个 简单 文件 系统 的 体系 结构 ， 它 为 其 他 用 户 提供 接口 并 依次 关联 到 一 个 目录 服务 组 件 和 一 个 
平面 文件 服务 组 件 。 图 中 还 有 到 块 和 设备 模块 的 附 。 目录 服务 


加 连接 ， 该 图 展现 了 这 个 特定 文件 系统 的 总 体 结 所 需 的 接口 
构 。( 我 们 将 在 第 12 章 研究 分 布 式 文件 系统 实际 的 提供 的 接口 
体系 结构 。) 平面 文件 服务 
。 接口 可 以 具有 不 同 的 风格 。 特 别 的 ， 许 多 
基于 组 件 的 方法 提供 两 种 接口 风格 : 


。 支持 远程 方法 调用 的 接口 ,例如 CORBA 和  ” 文件 服务 
Java RMI; 

支持 分 布 式 事件 的 接口 (参见 第 6 章 的 讨论 ) 。 

在 8.5.1 节 讨 论 企业 JavaBeans 时 ， 我们 将 会 : 
看 到 这 两 种 接口 风格 。 ih acces 

基于 组 件 系 统 的 编程 关注 组 件 及 其 组 合 的 开 图 8-11 一 个 软件 体系 结构 的 例子 
发 ， 目 标 是 支持 与 硬件 开发 类 似 的 软件 开发 风格 ， 也 就 是 使 用 现成 的 组 件 并 组 合 它们 开发 更 复杂 的 服 
务 : 将 软件 开发 向 软件 组 装 过 渡 。 因 此 这 种 方法 支持 软件 组 件 的 第 三 方 开发 ， 并 可 以 通过 用 一 个 与 组 
件 提 供 的 接口 和 所 需 的 接口 精确 匹配 的 组 件 来 蔡 代 它 ， 使 得 运行 时 自 适 应 系统 配置 变 得 容易 。 

基于 组 件 方法 的 拥护 者 尤其 强调 使 用 组 合 ， 并 把 它 看 做 是 构造 复杂 软件 系统 最 纯净 的 方式 。 尤 其 
是 ， 他 们 提倡 组 合 胜 过 继承 ,认为 继承 会 导致 额外 的 (类 之 间 的 ) 隐 式 依赖 。 继 承 会 导致 诸如 脆弱 基 
类 的 问题 ， 即 基 类 的 改变 会 对 从 继承 层次 继承 而 来 的 对 象 产生 不 可 预见 的 影响 [ Szypeski 2002] 。 

到 目前 为 止 ， 我 们 已 经 论述 了 上 面 强调 的 第 一 个 需求 〈 即 依赖 显 式 化 ) ， 但 其 他 的 三 个 还 没有 涉 
及 ， 这 三 个 需求 关注 的 是 简化 分 布 式 应 用 的 开发 和 部 署 。 当 我 们 进一步 考察 基于 组 件 的 方法 是 如 何在 
分 布 式 系统 社区 中 演化 时 ， 对 这 三 个 需求 的 支持 层次 就 会 清晰 可 见 了 。 

组 件 和 分 布 式 系统 ”目前 已 出 现 很 多 基于 组 件 的 中 间 件 技术 ， 包 括 企业 JavaBeans ( 相关 讨论 参见 
下 面 的 8.5.1 节 ) 和 CORBA 组 件 模型 (CORBA Component Model, CCM) [ Wang et al. 2001], CCM 是 
CORBA 从 基于 对 象 的 平台 演化 到 基于 组 件 的 平台 的 结果 。 基 于 组 件 的 中 间 件 是 基于 上 述 观点 构造 的 ， 
并 且 增 加 了 对 分 布 式 系统 开发 和 部 署 的 支持 ， 相 关 讨 论 见 下 面 。 

容器 : 容器 对 基于 组 件 的 中 间 件 而 言 绝对 是 核心 概念 。 容 器 对 分 布 式 应 用 中 经 常 遇 到 的 一 种 公共 
模式 提供 支持 ， 该 公共 模式 包括 : 生命 期 接口 

e 一 个 前 端 (可 能 是 基于 Web 的 ) 客户 端 ; m 

。 容器 中 包含 一 个 或 多 个 实现 应 用 或 业务 逻 外 部 

辑 的 组 件 ; toi 

。 在 持久 存储 中 管理 相关 数据 的 系统 服务 。 

(这 类 似 于 2. 3. 2 节 描 述 的 三 层 模 型 。) 

容器 的 任务 是 为 组 件 提供 一 个 受 控 的 服务 器 
端 驻 留 环境 ， 提 供 上 面 提 及 的 必要 的 关注 点 分 离 ， 
其 中 组 件 处 理应 用 程序 所 关注 的 问题 ， 而 容器 处 
理 分 布 式 系统 和 中 间 件 问题 ， 保 证 实现 非 功 能 特 ith 
性 。 容 器 的 整体 结构 如 图 8- 12 所 示 。 它 表明 容器 We 
内 封装 了 很 多 组 件 ; 容器 并 不 提供 到 组 件 中 的 直 图 8-12 容器 结构 
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接 访问 而 是 拦截 到 达 的 调用 ， 并 采取 适当 的 动作 以 确保 分 布 式 应 用 所 期 望 的 特性 被 维护 。 以 CORBA 
为 例 ， 这 包含 了 : 

。 管理 与 底层 ORB 内 核 、POA 功能 的 交互 ， 并 对 应 用 开发 者 完全 隐藏 交互 细节 ; 

。 管理 对 适当 的 分 布 式 系统 服务 的 调用 ， 包 括 安全 和 事务 服务 ， 提 供应 用 所 要 求 的 非 功能 属性 ， 

但 该 过 程 对 程序 员 透 明 。 

把 这 些 合 起 来 ， 可 以 极 大 地 简化 分 布 式 应 用 的 开发 ， 人 允许 组 件 开发 者 只 关注 应 用 层 本 身 。 例 如 ， 
用 容器 方法 ， 图 8-8 和 图 8-9 中 所 有 与 POA 相关 的 调用 都 会 由 容器 发 出 而 不 是 组 件 。 类 似 地 ， 通 过 拦 
截 机 制 ， 容 器 能 对 适当 的 分 布 式 系 统 服务 发 出 可 能 很 复杂 的 调用 序列 来 实现 所 需 的 非 功 能 特性 。 为 了 
阐明 这 一 点 ， 考 虑 用 于 处 理 并 发 访问 组 件 的 一 个 简单 的 管理 策略 。 这 可 以 通过 在 外 部 接口 拦截 到 达 的 
调用 ， 获 取 底 层 组 件 相关 的 锁 并 在 该 组 件 上 调用 相应 底层 操作 来 实现 ， 在 调用 完成 后 ， 确 保 锁 会 被 释 
放 ， 这 一 过 程 对 组 件 是 透明 的 。( 关 于 锁 将 在 16. 4 节 详 细 讨论 ， 这 里 一 般 性 的 了 解 就 足够 了 。) 

支持 容器 模式 和 该 模式 蕴含 的 关注 点 分 离 的 中 间 件 被 称 为 应 用 服务 器 。 这 种 分 布 式 编程 风格 在 当 
今 工 业界 广 为 使 用 。 当 前 ， 有 很 多 应 用 服务 器 可 用 ， 图 8-13 汇总 了 主要 的 解决 方案 。8. 5. 1 节 将 介绍 
应 用 服务 髓 的 一 个 例子 一 一 EJB 规约 。 











技术 开发 者 更 多 细节 
WebSphere 应 用 服务 器 IBM [www.ibm.com] 
企业 JavaBeans SUN {java.sun.com XII] 
Spring 框架 SpringSource (VMware 的 一 个 分 支 ) [www.springsource.org] 
JBoss JBoss 社区 [wwwjboss.org] 
CORBA 组 件 模型 OMG [Wang et al. 2001] 
JOnAS OW2 联 盟 [jonas.ow2.org] 

| GlassFish SUN [glassfish.dev. java.net 








图 8-13 ”应 用 服务 器 


部 署 支持 : 基于 组 件 的 中 间 件 提供 组 件 配 置 的 部 署 支 持 ， 软 件 发 布 是 将 软件 体系 结构 (组 件 和 它 
们 的 相互 关联 ) 以 及 部 署 描述 符 一 起 打包 ， 这 里 ， 部 署 描述 符 确切 地 描述 了 配置 应 如 何 部 署 到 分 布 式 
环境 中 。 

注意 组 件 是 部 署 在 容器 中 的 ， 容 器 解释 部 署 描述 符 来 建立 底层 中 间 件 与 分 布 式 系统 服务 所 需 的 策 
略 。 因 此 ， 一 个 给 定 的 容器 包括 很 多 组 件 ， 这 些 组 件 从 分 布 式 系统 支持 角度 看 要 求 具有 相同 配置 。 

部 署 描述 符 通常 用 XML 编写 ， 它 包含 足够 的 信息 以 保证 : 

© 通过 恰当 的 协议 和 相关 的 中 间 件 支持 ， 组 件 被 正确 地 关联 ; 

。 配置 底层 的 中 间 件 和 平台 以 便 为 组 件 配置 提供 正确 的 支持 级 别 〈 例 如 ， 在 CORBA 中 ， 这 可 以 

包括 配置 POA) ; 
© 启动 相关 的 分 布 式 系统 服务 以 提供 合适 级 别 的 安全 、 事 务 支 持 等 。 
还 提供 解释 部 署 描述 符 的 工具 以 及 确保 在 给 定 的 物理 体系 结构 下 进行 正确 部 署 的 工具 。 


8.5 实例 研究 ， 企业 JavaBeans 和 Fractal 


应 用 服务 器 的 优势 在 于 它 为 一 种 分 布 式 编程 风格 (如 上 解释 的 3 层 方法 ) 提供 了 全 面 的 支持 ， 并 
向 用 户 隐 藏 了 与 分 布 式 编程 相关 的 大 部 分 复杂 性 。 它 的 劣势 在 于 它 是 规范 性 的 和 重量 级 的 ， 规 范 性 意 
味 着 强制 使 用 特定 的 系统 体系 结构 风格 ， 而 重量 级 是 指 应 用 服务 器 是 庞大 而 复杂 的 软件 系统 ， 它 不 可 
避免 地 会 带 来 性 能 和 资源 上 的 开销 。 这 种 方法 在 高 端 服 务 器 机 器 上 运行 良好 。 

与 之 相反 ,分 布 式 系 统 中 也 采用 更 加 精简 和 轻巧 的 组 件 编程 风格 ， 这 种 风格 被 称 为 轻 量 级 组 件 模 
型 以 区 别 于 更 重量 级 的 应 用 服务 器 的 体系 结构 。 本 节 我 们 提供 组 件 技术 的 两 个 实例 研究 ， 应 用 服务 顺 
方法 的 领军 者 “企业 JavaBeans” 和 轻 量 级 组 件 体 系 结构 的 例子 Fractal。 
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8.5.1 企业 JavaBeans 


企业 JavaBeans (EJB)[java. sun. com XII] 是 一 个 服务 器 端的 、 受 控 的 组 件 体系 结构 规约 ， 是 Java 
平台 企业 版 本 (Java EE) 的 一 个 主要 成 员 ， 是 客户 -服务 器 编程 的 一 套 规约 。 其 他 的 规约 还 包括 Java 
RMI 和 JMS， 它 们 在 本 书 的 其 他 章节 中 介绍 (分别 在 第 5 章 和 第 6 章 )。 

EJB 被 定义 为 一 个 服务 器 端的 组 件 模型 ， 因 为 它 支 持 一 类 典型 应 用 的 开发 ， 这 类 应 用 中 有 大 量 的 
客户 与 多 个 服务 交互 ， 而 服务 是 通过 组 件 或 组 件 配置 实现 的 。EJB 中 的 组 件 被 称 为 Bean， 它 旨 在 捕获 
应 用 (或 业务 ) 逻辑 ,正如 第 2 章 所 定义 的 ， 用 EJB 还 支持 应 用 逻辑 与 其 后 台数 据 库 持 久 存 储 的 分 
离 。 也 就 是 说 ，EJB 2.3.2 节 引入 的 三 层 体系 结构 提供 了 直接 的 支持 。 

EJB 是 受 控 的 ， 其 含义 是 指 它 使 用 了 上 面 (在 8.4 节 ) 介绍 的 容器 模式 ， 用 以 提供 关键 的 分 布 式 
系统 服务 ， 包 括 事务 、 安 全 和 生命 周期 管理 。 一 般 来 说 ， 容 器 在 相关 服务 中 注 和 人 适当 的 调用 以 提供 所 
需 的 特性 ， 事 务 管 理 器 或 安全 服务 的 使 用 对 Bean 的 开发 者 是 完全 隐藏 的 〈container- managed) 。 也 可 能 
由 Bean 开发 者 对 这 些 操作 进行 更 多 的 控制 (bean- managed) 。 

EJB 的 目标 是 维护 分 布 式 应 用 开发 中 各 种 角色 之 间 的 关注 点 的 强 分 离 。EJB 的 规约 识别 出 以 下 关 
Brats 

© Bean 提供 者 ， 他 开发 组 件 的 应 用 逻辑 ; 

。 应 用 装配 者 ， 他 将 各 种 Bean 装配 为 应 用 所 需 的 配置 ， 

。 部 署 者 ， 他 使 用 一 个 给 定 的 应 用 组 合并 确保 能 在 一 个 给 定 的 操作 环境 中 正确 部 署 ; 

e 服务 提供 者 ， 他 是 基础 分 布 式 系统 服务 (如 事务 管理 ) 的 专家 ， 能 在 这 些 领 域 提 供 所 期 望 的 

支持 ; 

© 持久 化 提供 者 ， 他 是 将 持久 数据 映射 到 底层 数据 库 以 及 在 运行 时 管理 它们 的 关系 的 专家 ; 

。 容器 提供 者 ， 他 在 以 上 两 个 角色 的 基础 上 工作 ， 负 责 正 确 地 配置 容器 ， 提 供 分 布 式 系统 支持 所 

需 的 非 功能 特性 ， 例 如 事务 、 安 全 和 期 望 的 持久 化 支持 ; 

© 系统 管理 员 ， 他 负责 监控 运行 时 的 部 署 并 执行 一 些 调整 操作 以 确保 系统 正确 的 运作 。 

请 注意 ，EJB 是 在 上 述 意义 下 的 重量 级 的 组 件 体系 结构 。 它 的 软件 复杂 性 相当 高 ， 尤 其 是 与 容器 

管理 相关 的 部 分 。 因 此 ， 这 个 方法 是 规范 性 的 ， 只 能 用 于 某 些 类 型 的 应 用 。 如 上 所 述 ，EJB 尤其 适合 
遵循 三 层 体系 结构 的 应 用 ， 它 在 此 类 应 用 中 使 用 中 间 层 (应 用 逻辑 ) RA E EE A 
库 。 例 如 ， 这 种 风格 的 体系 结构 在 电子 商务 应 用 中 很 常见 ， 在 这 类 应 用 中 ， 数 据 库 维 护 库存 商品 、 
格 和 余 量 数据 ， 中 间 层 提供 接口 以 浏览 库存 并 购买 选中 的 商品 。 一 般 地 ， JMS ARIE EAE 
统 服务 的 支持 ， 因 此 ， 与 容 冉 管理 相关 的 开销 是 完全 值得 付出 的 。 本 节 我 们 将 一 直 使 用 eShop 这 个 例 
子 来 阐述 EJB 的 使 用 。 也 有 一 些 应 用 不 符合 这 样 的 模式 ， 因 此 EB 不 适合 应 用 于 这 类 应 用 。 这 样 的 例 
子 包 括 对 等 结构 一 一 它 不 遵循 分 层 模型 ， 另 一 个 例子 是 运行 在 嵌入 式 设备 中 的 轻 量 级 应 用 ， 在 这 种 应 
HP, EJB 的 开销 是 不 可 接受 的 。 

本 节 我 们 主要 关注 2006 年 发 布 的 EJB 3. O[ java. sun. com XI] 的 特点 ，EJB 3. 0 有 大 量 的 商业 的 和 
开源 的 联盟 ， 包 括 Spring, JBoss, JOnAS 和 GlassFish, 

EJB 组 件 模型 ”EJB 中 的 Bean 是 为 组 件 的 潜在 客户 提供 一 个 或 多 个 业务 接口 ， 接 口 可 能 是 远程 的 
也 可 能 是 本 地 的 ， 远 程 接口 需要 使 用 适当 的 通信 中 间 件 (如 RMI 或 JMS) ， 而 本 地 接口 则 可 能 是 更 直 
接 的 ， 因 此 也 是 更 有 效 的 绑 定 。 回 顾 8.4 节 中 介绍 的 术语 ， 业 务 接口 等 价 于 提供 的 接口 。 (在 下 面 的 
“依赖 注 人 ” 部分， 会 看 到 EJB 是 如 何 实现 所 需 接 口 的 。) 一 个 Bean 由 一 组 远程 和 本 地 业务 接口 以 及 
实现 这 些 接口 的 相关 Bean 类 来 表示 。EJB 3. 0 规约 中 主要 支持 两 种 风格 的 Bean: 

会 话 Bean; 会 话 Bean 是 在 服务 的 应 用 最 辑 内 实现 特定 任务 的 组 件 ， 例 如 ， 在 eShop 应 用 中 实现 购 
买 业务 。 会 话 Bean 在 服务 期 内 一 直 存在 ， 它 在 会 话 期 内 维护 与 客户 的 对 话 。 会 话 Bean 可 以 是 有 状态 
的 ， 也 可 以 是 无 状态 的 。 有 状态 会 话 Bean 维护 相关 对 话 的 状态 (例如 电子 商务 事务 当前 的 状态 ) ， 无 
状态 Bean 则 不 维护 状态 信息 。 有 状态 会 话 Bean 意味 着 是 一 个 与 单个 客户 进行 的 对 话 ， 并 维护 对 话 的 
状态 ， 而 无 状态 会 话 Bean 则 可 以 和 多 个 不 同 客户 进行 并 发 的 对 话 。 正 如 我 们 下 面 讨论 的 ， 有 状态 会 话 
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Bean 的 相关 状态 可 以 持久 化 ， 也 可 以 不 持久 化 。 

消息 驱动 的 Bean: 客户 使 用 本 地 或 远程 的 调用 与 会 话 Bean 交互 。 纵 观 本 书 可 以 着 到 ， 其 他 的 通信 
模式 对 于 分 布 式 系 统 开发 也 很 重要 ， 这 包括 间接 通信 范 型 。EJB 2.0 引入 了 消息 驱动 Bean 的 概念 来 支 
持 间 接 通 信 ， 尤 其 是 ， 提 供 了 通过 消息 队列 或 主题 与 组 件 进行 交互 的 可 能 性 ， 这 里 ， 交 互 是 通过 IMS 
直接 提供 的 功能 实现 的 。 (队列 和 主题 是 IMS 中 首选 实体 ， 用 于 表示 消息 的 可 替代 中 间 媒 介 ， 参 见 
6.4.3 节 。) 在 消息 驱动 的 Bean 中 ， 业 务 接口 实现 为 监听 者 风格 的 接口 ， 用 于 反映 相关 Bean 的 事件 驱 
动 本 质 。 

POJO 和 注解 在 BEB 中 ,通过 使 用 企业 JavaBeanPOJO (plain old Java objects) 和 Java 的 企业 Jav- 
aBean 注解 能 极 大 地 简化 编程 任务 。Bean ( 即 Bean 业务 接口 的 实现 ) 是 一 个 老式 普通 的 Java 对 象 : È 
仅 使 用 Java 来 编写 应 用 逻辑 ， 无 需 其 他 与 Bean 相关 的 代码 。 注 解 用 于 确保 POJO 在 EIB 上 下 文中 行为 
的 正确 性 。 换 名 话说，Bean 是 一 个 增补 了 注解 的 POJO。 

注解 是 在 Java 1. 5 中 引入 的 ， 是 用 于 关联 包 、 类 、 方 法 、 参 数 和 变量 的 元 数据 机 制 。 元 数据 可 以 
供 框架 使 用 ， 用 于 保证 那 部 分 程序 与 正确 的 行为 或 解释 相关 联 。 例 如 ， 注 解 可 以 用 于 引入 一 种 特定 风 


格 的 Bean， 下 面 是 带 注解 的 Bean 的 定义 的 例子 〈 代 表 EJB 3. 0 中 Bean 的 主要 风格 ) : 
@Stateful public class eShop implements Orders {...} 
@Stateless public class CalculaterBean implements Calculator {...} 
@MessageDriven public class SharePrice implements MessageListener {...} 


注解 也 用 于 表明 业务 接口 是 远程 (@ remote) 的 还 是 本 地 的 〈@local)。 下 面 的 例子 中 ，Order 接 


口 是 远 程 的 而 来 自 CalculatorBean 的 Calculator 接口 是 本 地 的 。 
@Remote public interface Orders {...} 
@Local public interface Calculator {...} 


显而易见 ， 注 解 在 EIB 中 被 普遍 采用 ， 它 提供 了 在 EJB 上 下 文中 如 何 解 释 程 序 的 规约 。 在 下 面 的 
描述 中 ， 我 们 将 开发 eShop 的 例子 并 展示 注解 在 Bean 对 象 编程 中 的 扩展 用 法 (这 里 是 一 个 会 话 Bean) 。 

EJB 中 的 企业 JavaBean 容器 EJB 采用 了 8.4 节 描 述 的 基于 容器 的 方法 。Bean 部 署 在 容器 中 ， 容 
器 通过 拦截 机 制 提供 隐 式 的 分 布 式 系统 管理 支持 。 按 这 种 方式 ， 容 器 提供 诸如 事务 管理 、 安 全 、 持 久 
化 、 生 命 周期 管理 等 方面 的 必要 策略 ， 这 允许 开发 者 只 关注 应 用 逻辑 。 因 此 ， 必 须 通 过 配置 容器 来 获 
得 所 需 的 支持 级 别 。 在 当前 版 本 中 ，EJB 预先 配置 了 普通 的 默认 策略 ， 开 发 者 只 有 在 默认 配置 不 能 满 
足 要 求 时 才 需 要 采取 行动 去 修改 那些 配置 〈 在 规约 中 被 称 为 “例外 配置 ”) [java. sun. com XII], 

EJB 中 定义 了 大 量 注解 来 控制 上 述 的 各 种 支持 策略 。 我 们 主要 通过 EB 事务 管理 来 展示 注解 的 使 
用 ,同时 也 鼓励 读者 查看 EJB 3. 0 规约 来 了 解 更 多 的 例子 。 事 务 会 在 第 16、17 章 介绍 。 概 要 地 说 ， 事 
务 的 作用 是 用 来 保证 被 一 个 服务 器 (或 多 个 服务 器 ， 分 布 式 事务 情况 下 ) 管理 的 所 有 对 象 的 状态 在 有 
多 个 客户 并 发 访问 或 服务 器 失效 的 情况 下 仍然 是 一 致 的 。 事 务 的 实现 是 通过 使 得 一 组 操作 序列 按 原 子 
方式 被 执行 ， 这 是 因为 操作 序列 要 么 成 功 执行 ， 其 执行 免 于 受 其 他 并 发 用 户 访问 的 干扰 ; 要 人 么 在 故障 
出 现 〈 例 如 ， 一 个 服务 器 崩溃 ) 的 情况 下 没有 执行 。 以 eShop 为 例 ， 事 务 机 制 将 保证 对 单一 商品 的 两 
个 并 发 购买 操作 不 会 导致 商品 被 卖 出 两 次 ， 同 时 ， 服 务 器 崩溃 也 不 会 引起 系统 进入 不 一 致 状态 ,例如 
商品 已 支付 而 没有 将 商品 分 配给 顾客 。 

实现 事务 的 机 制 相对 复杂 ， 因 此 本 书后 面 有 两 章 专 注 于 这 个 领域 。 尽 管 如 此 ， 事 务 的 整个 概念 还 
是 相对 简单 的 ， 对 它 直 观 的 理解 就 足以 理解 EJB 如 何 管理 事务 了 。 要 记 住 的 关键 的 概念 是 : 事务 指 的 
是 一 个 操作 序列 ， 这 一 序列 必须 被 事务 管理 服务 清楚 地 标识 出 来 以 便 执行 。FEJB 中 的 事务 可 以 同样 地 
应 用 到 任 一 种 Bean， 无 论 是 会 话 Bean 还 是 消息 驱动 的 Bean。 

使 用 事务 时 首先 要 声明 的 是 ， 与 一 个 企业 Bean 相关 的 事务 是 Bean 管理 的 还 是 容器 管理 的 。 这 通 
过 在 相关 的 类 中 分 别 使 用 如 下 注解 来 实现 。 


@TransactionManagement (BEAN) 
@TransactionManagement (CONTAINER) 


Bean 管理 的 事务 最 容易 理解 。 在 这 种 情况 下 ，Bean 开发 者 负责 显 式 地 识别 事务 要 包括 的 操作 序 
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列 。 这 通过 显 式 地 将 Java 接口 javax. transaction. UserTransaction 中 的 两 个 方法 User Transaction. begin 和 


UserTransaction. commit 引入 Bean 的 代码 来 实现 。 这 些 方法 可 用 于 一 个 交互 的 客户 端 或 服务 器 端 。 下 面 
的 代码 段 阐述 了 eShop 例子 中 Bean 管理 的 事务 的 使 用 。 
@Stateful 
@TransactionManagement (BEAN) 
public class eShop implements Orders { 
@Resource javax. transaction. UserTransaction ut; 


public void MakeOrder (...) { 
ut.begin 0; 


ut.commit 0); 


} 

然而 ， 某 种 程度 上 ， 这 违背 了 容器 方法 的 精神 ， 因 为 它 需 要 将 事务 相关 的 代码 加 入 到 Bean 中 。 而 
另 一 种 方法 ， 即 容器 管理 的 事务 ， 通 过 让 容器 来 决定 何 时 开始 和 结束 事务 从 而 避免 使 用 显 式 代码 。 这 
是 通过 在 Bean 执行 中 关联 给 定 的 定 界 (demarcation) 策略 来 实现 的 。 它 也 是 通过 在 Bean 类 的 一 个 给 


定 方法 上 关联 合适 的 注解 声明 来 实现 的 。 例 如 ， 考 虑 下 面 的 程序 段 : 
@Stateful public class eShop implements Orders { 


@TransactionAttribute (REQUIRED) 
public void MakeOrder (...) { 


} 
} 


上 面 的 程序 表明 REQUIRED 策略 与 MakeOrder 方法 相关 联 。 该 策略 规定 被 关联 的 方法 必须 在 一 个 
事务 内 执行 。 要 理解 这 个 策略 ， 需 要 认识 到 事务 必须 被 调用 者 初始 化 或 由 Bean 自己 负责 事务 。RE- 
QUIRED 策略 在 必要 的 时 候 启动 一 个 新 事务 ， 所 谓 必 要 的 时 候 是 指 调用 者 没有 提供 一 个 事务 上 下 文 来 
指明 该 Maker Order 方法 位 于 另 一 个 已 开始 执行 的 事务 中 。 在 图 8-14 中 对 各 种 策略 做 了 总 结 。 











h 性 OME 
REQUIRED 如 果 客 户 有 一 个 相关 的 事务 正在 运行 ， 那 么 在 该 事务 中 运行 该 属性 关联 的 
方法 ， 否 则 启动 一 个 新 事务 
REQUIRES NEW 总 是 为 这 个 调用 启动 一 个 新 的 事务 
SUPPORTS 如 果 客 户 有 一 个 相关 的 事务 ， 那 么 在 该 事务 的 上 下 文中 执行 该 方法 ， 否 则 ， 
该 方法 调用 不 被 任何 事务 支持 


NOT7 SUPPORTED 如 果 客 户 在 一 个 事务 内 调用 该 方法 ， 那 么 这 个 事务 在 调用 该 方法 前 暂停 ， 
在 该 方法 执行 后 继续 ， 也 就 是 说 ， 被 调用 的 方法 被 排除 在 事务 之 外 


MANDATORY 关联 的 方法 必须 在 一 个 客户 事务 中 调用 ， 否 则 ， 抛 出 异常 


NEVER 关联 的 方法 不 能 在 客户 事务 内 调用 
如 果 进 行 这 样 的 尝试 ， 则 会 抛 出 异常 


图 8-14 EJB 中 的 事务 属性 


MERWE, RUT, EB 中 的 事务 是 由 容器 管理 的 。 

依赖 注入 ; 上 面 的 例子 也 阐述 了 容器 的 一 个 更 重要 的 作用 一 一 EJB 依赖 注入 。 通 常 ， 依 赖 注 和 人 是 
一 种 常见 的 编程 模式 。 该 模式 中 ， 由 第 三 方 ( 此 处 为 容器 ) 负责 管理 和 解析 组 件 及 其 依赖 〈 所 需 接 
口 ， 见 8.4 节 的 术语 ) 之 间 关 系 。 尤 其 是 ,在 EJB 3.0 中 ,组 件 通 过 注解 来 提交 依赖 ， 而 容器 负责 解 
桥 注解 并 确保 在 运行 时 相关 的 属性 指向 正确 的 对 象 。 这 在 容器 中 通常 使 用 反射 来 实现 。 

例如 ， 在 上 面 的 代码 段 中 ， 注 解 @ Resource 指明 当前 组 件 依赖 于 一 个 实现 了 UserTransaction 接口 的 
对 象 。 为 了 让 配置 有 意义 必须 有 这 个 声明 。 依 赖 注 和 标识 了 依赖 关系 ， 同 时 保证 在 部 署 了 正确 的 组 件 
配置 时 ， 相 关 的 属性 ut 指向 了 正确 的 外 部 资源 。 

EJB ZR EJB 规约 允许 程序 员 在 Bean 中 拦截 下 面 两 类 操作 以 改变 其 默认 的 行为 : 








| 
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。 与 业务 接口 相关 的 方法 调用 。 

。 生命 周期 事件 。 

我 们 分 别 看 一 下 : 

拦截 方法 : 这 一 机 制 用 于 在 调用 业务 接口 时 必须 关联 一 个 或 一 组 带 有 到 达 调 用 的 特定 的 操作 。 会 
话 Bean 上 的 到 达 的 调用 或 消息 驱动 Bean 上 的 到 达 的 事件 都 可 以 使 用 拦截 。 正 如 我 们 已 经 看 到 的 ，EJB 
体系 结构 中 大 量 地 使 用 拦截 来 实现 隐 式 的 管理 。 应 用 开发 者 可 以 将 拦截 扩展 到 容器 未 提供 的 更 多 的 领 
域 相关 的 关注 上 。 

考虑 eShop 这 个 例子 。 假 设 需要 对 eShop 内 执行 的 所 有 操作 增加 日 志 用 于 审计 ， 那 么 使 用 拦截 允许 
程序 员 在 不 改变 Bean 内 应 用 逻辑 的 条 件 下 添加 这 一 服务 。 作 为 拦截 的 第 二 个 例子 ， 拦 截 机 制 可 以 用 于 
阻止 特定 的 顾客 在 eShop 中 实施 购买 操作 〈 例 如 他 们 未 支付 以 前 的 购买 费用 ) 。 

有 多 种 方法 可 以 将 拦截 器 关联 到 一 个 给 定 的 Bean， 可 以 将 拦截 器 类 关联 到 给 定 的 Bean 类 或 独 有 的 
方法 上 (使 用 注解 @ Interceptors) ， 或 者 将 一 个 拦截 方法 关联 到 一 个 给 定 的 类 上 〈 使 用 注解 @ Aroundin- 
voke) 。 为 简单 起 见 ， 我 们 只 讨论 后 一 种 机 制 ， 回 到 eShop 例子 。 


@Stateful 
public class eShop implements Orders { 
public void MakeOrder (...) { 


@AroundInvoke 
public Object log(InvocationContext ctx) throws Exception { 
System.out.printin ("The following method was invoked: " + 
ctx.getMethod().getName(); 
return invocationContext.proceed(); 
} 
2 


注解 @ AroundInvoke 为 eShop 的 Bean 类 引入 了 一 个 拦截 器 。 拦 截 器 必须 使 用 以 下 的 语法 格式 : 
Object < methodName > (javax. ejb, InvocationContext) 
每 次 eShop 的 业务 方法 被 调用 就 会 触发 上 述 方 法 ， 该 方法 中 的 参数 为 拦截 器 增添 了 重要 的 能 力 ， 
它 提供 与 被 拦截 调用 相关 的 元 数据 (例如 ， 对 Bean 的 引用 ， 所 调用 的 方法 ， 与 调用 相关 的 实际 的 参 
数 ) ， 同 时 它 也 限制 了 在 方法 执行 前 改变 参数 。 方 法 的 最 后 一 行 调用 了 proceed 方法 ， 它 将 控制 权 返 回 
370| ”给 被 拦截 的 方法 〈 或 拦截 器 链 中 的 下 一 个 拦截 器 ， 如 果 定 义 了 多 个 拦截 器 ) 。 
图 8-15 列 出 了 与 调用 上 下 文 相关 的 主要 方法 。 


基 WW 用 法 








public Object getTarget() 返回 与 到 达 调 用 或 事件 相关 的 Bean 实 例 
public Method getMethod() 返回 被 调用 的 方法 

public Object{[]getParameters() 返回 与 被 拦截 业务 方法 相关 的 参数 集 
public void setParameters( 设置 拦截 器 可 以 改变 的 参数 集 

Object[] params) 假设 能 维护 参数 类 型 的 正确 性 

public Object proceed()throws 执行 拦截 器 链 中 的 下 一 个 拦截 器 〈 如 果 有 ) 
Exception 或 被 拦截 的 方法 





图 8-15 EJB 的 调用 上 下 文 


生命 周期 事件 拦截 : 相似 的 机 制 也 可 以 用 于 拦截 与 一 个 组 件 相关 的 生命 周期 事件 并 执行 特定 动作 。 
EJB 规约 允许 Bean 程序 员 使 用 下 列 注解 来 分 别 将 拦截 器 与 组 件 的 创建 和 删除 操作 相关 联 : 


@PostConstruct 
@PreDestroy 


注解 将 指定 的 方法 关联 到 Bean 类 ， 当 相关 的 生命 周期 事件 出 现时 ， 这 些 方法 就 会 被 调用 。 例 如 ， 
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在 以 下 的 eShop 代码 段 中 ，TidyUp 会 在 组 件 被 销毁 前 调用 。 
@Stateful f 
public class eShop implements Orders { 
public void MakeOrder (...) { ...} 


@PreDestroy void TidyUpQ {... }} 


} 

该 注解 通常 被 用 于 释放 当前 所 使 用 的 资源 ， 例 如 eShop 类 中 ， 打 开 的 文件 或 者 与 eShop 实现 相关 的 
大 , 接 字 。 相 似 的 ，TidyUp 也 可 用 于 将 与 eShop 相关 的 关键 数据 写 和 人 到 后 台数 据 库 。 

如 果 Bean 是 有 状态 的 ， 也 可 以 通过 使 用 @ PostActivate 和 @ PrePassivate 捕获 激活 和 去 活 事件 。 同 
样 ， 可 以 在 这 些 生命 周期 事件 中 加 入 重要 的 动作 一 一 例如 ， 在 Bean 被 去 活 前 将 会 话 相关 的 对 话 状态 写 
人 后 台数 据 库 。 

注解 在 EJB 3.0 中 被 广泛 使 用 以 提供 一 个 一 致 的 和 简单 的 编程 模型 ， 由 此 ， 组 件 开发 者 使 用 POJO 
来 构造 应 用 逻辑 ， 并 用 由 容器 框架 负责 解释 的 额外 的 元 数据 级 注解 来 适当 修饰 它 。 


8.5.2 Fractal 


如 上 所 述 ，Fractal 是 一 个 轻 量 级 组 件 模型 ， 它 将 基于 组 件 编程 范 型 的 优点 带 到 了 分 布 式 系统 的 开 
发 中 [ Bruneton et al. 2006, fractal. ow2. org 1] 。Fractal 提供 了 对 接口 编程 (programming with interfaces ) 
的 支持 ， 这 为 Fractal 带 来 了 与 接口 和 实现 相 分 离 相关 的 诸多 好 处 。 另 外 ，Fractal 还 支持 系统 软件 体系 
结构 的 显 式 表示 ， 避 免 了 8. 4 节 讨论 的 隐 式 依赖 问题 。Fractal 方法 刻意 追求 最 小 化 ， 它 不 支持 其 他 的 
组 件 相关 的 功能 ， 例 如 部 署 ， 也 不 支持 由 应 用 服务 器 提供 的 完备 的 容器 模式 和 丰富 的 编程 模型 。Frac- 
tal 使 用 组 件 模 型 作为 基本 的 构建 模块 来 构造 复杂 软件 系统 〈 包 括 下 面 讨论 的 中 间 件 系统 ) ， 这 使 得 软 
件 具 有 清晰 的 基于 组 件 的 体系 结构 ， 而 且 软 件 是 可 配置 的 ， 也 可 以 在 运行 时 重 配置 以 适应 当前 的 操作 
环境 和 需求 。 

Fractal 定义 了 一 编程 模型 ， 而 且 它 不 依赖 编程 语言 。 在 很 多 不 同 的 语言 中 ， 该 模型 已 经 被 实现 ， 
包括 : : 

© Julia 和 AOKell (基于 Java, 后 者 也 提供 面向 方面 的 编程 支持 ) ; 

e Cecilia 和 Think (基于 C 语言 ) ; 

© FracNet (基于 . Net); 

è FracTalk (基于 Smalltalk) ; 

e Julio (基于 Python) 。 

Julia 和 Cecilia 被 看 做 是 Fractal 的 参考 实现 。 

Fractal 是 由 致力 于 分 布 式 系统 中 间 件 的 开源 软件 组 织 OW2 联盟 [www. ow2. org] 所 支持 的 ，0W2 
鼓励 并 推广 使 用 基于 组 件 的 方法 来 构造 中 间 件 。 目 前 ， 使 用 Fractal 已 经 被 用 于 很 多 中 间 件 平台 的 构 
造 , 包括 Think (一 个 可 配置 的 操作 系统 内 核 ) DREAM (一 个 支持 各 种 间接 通信 的 中 间 件 平台 )、 
Jasmine (一 个 支持 SOA 平台 的 监测 和 管理 工具 ) GOM (提供 灵活 的 事务 管理 ) 和 Proactive (一 个 
用 于 网 格 计算 的 中 间 件 平台 ) 。Fractal 也 是 网 格 组 件 模型 〈Grid Component Model, GCM) 的 基础 ， 
GCM 对 相关 ETSI 标准 的 开发 有 很 大 的 影响 [Baude et al. 2009 ] 。 关 于 这 些 项 目的 进一步 细节 可 以 在 
OW2 网 站 上 找到 [ www. ow2. org]. 

我 们 注意 到 还 有 其 他 一 些 专门 为 分 布 式 系统 开发 的 轻 量 级 组 件 模型 ， 随 后 我 们 着 重 介绍 OpenCOM 
和 OSGI, 

核心 的 组 件 模型 ”Fractal 中 的 组 件 提供 一 个 或 多 个 接口 ， 有 两 种 类 型 的 接口 可 用 : 

。 服务 器 接口 ， 它 支持 到 达 的 操作 调用 (等 价 于 8.4 节 的 术语 “提供 的 接口 ”); 

. 客户 接口 ， 它 支持 发 出 的 调用 (等 价 于 “所 需 的 接口 ”)。 

接口 是 接口 类 型 (interface type) 的 实现 ， 接 口 类 型 定义 了 该 接口 所 支持 的 操作 。 

1) Fractal PHARRR: 为 了 实现 组 合 ，Fractal 支持 楼 口 间 的 绑 定 。 模 型 支持 两 类 绑 定 : 
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a) RFRA: 原子 绑 定 〈primitive binding) 是 最 简单 的 绑 定形 式 ， 它 直接 将 类 型 兼容 的 同一 地 址 
空间 的 一 个 客户 接口 和 一 个 服务 器 接口 绑 定 。 原 子 绑 定 能 在 一 个 给 定 的 语言 环境 中 高 效 地 实现 ， 例 如 ， 
通过 直接 对 象 引用 。 

b) HOR: Fractal 也 支持 组 合 绑 定 (composite binding) ， 组 合 绑 定 是 任意 复杂 的 软件 体系 结构 
( 它 包 含 了 组 件 和 绑 定 ) ， 它 潜在 实现 了 不 同 机 器 的 多 个 接口 间 的 通信 。 例 如 ， 在 Fractal 中 实现 与 
CORBA 的 连接 ， 那 么 绑 定 就 由 代表 CORBA 中 的 核心 体系 结构 的 组 件 〈 包 括 代 理 、ORB 内 核 、 对 象 适 
配器 、 骨 架 和 伺服 器 类 ， 它 们 反映 了 图 8-5 中 的 体系 结构 》 组成。 

在 Fractal 中 ， 组 合 绑 定 本 身 就 是 组 件 ， 这 样 做 有 两 个 原因 

。 就 组 件 和 它们 的 互 连 而 言 ，Fractal 开发 的 系统 是 完全 可 配置 的 。 例 如 ， 可 以 建立 这 样 的 配置 ， 

其 组 件 交互 可 以 使 用 一 种 组 合 绑 定 ， 该 绑 定 可 以 用 任何 在 第 5、6 章 讨论 过 的 通信 范 型 〈 远 程 
调用 或 间接 通信 ， 点 对 点 或 多 方 通信 等 ) 实现 。 如 果 没 有 提供 现成 的 通信 范 型 ， 那 么 可 以 使 用 
Fractal 开发 并 作为 一 个 组 件 提 供给 将 来 的 开发 者 使 用 。 

。 系统 一 旦 建立 起 来 ， 软 件 体系 结构 的 任何 方面 都 可 以 在 运行 时 重 配 置 ， 包 括 组 合 绑 定 。 系 统 能 

够 在 运行 时 适应 通信 结构 是 非常 有 用 的 ， 例 如 ， 引 入 新 增 的 安全 层次 或 者 改变 实现 ， 以 便 系统 
规模 增长 时 变 得 更 具 可 伸缩 性 。 


-一 

OpenCOM OpenCOM[ Coulson et al. 2008] 是 一 个 与 Fractal 目标 类 似 的 轻 量 级 组 件 模型 。 
OpenCOM 被 设计 成 与 领域 和 操作 环境 无 关 的 开放 且 最 小 化 的 组 件 模型 ， 也 就 是 说 ,组 件 技术 足够 
灵活 ， 它 可 以 用 于 包括 资源 受 限 的 无 线 传 感 网 等 任何 需要 的 环境 中 。OpenCOM 的 设计 具有 可 忽略 
的 性 能 和 内 存 开销 ， 这 使 得 它 可 以 用 于 性 能 极为 关键 的 情况 ， 例 如 路 由 器 的 实现 。 

OpenCOM 的 总 体 结构 由 支持 基本 组 件 操作 (CUTER. RE) 的 最 小 化 运行 时 内 核 和 名 
定 的 组 件 构成 。 通 过 可 选 的 反射 和 平台 扩展 可 以 增强 OpenCOM 的 功能 ， 从 而 支持 反射 能 力 的 动态 
加 载 和 支持 支撑 关键 平台 操作 的 不 同 模型 (包括 加 载 和 绑 定 语义 ) 。 因 此 ， 从 概念 上 说 ， 这 些 扩展 
类 似 于 Fractal 中 的 控制 器 。 

OpenCOM 已 经 用 于 开发 各 种 实验 性 的 中 间 件 平台 ， 包 括 ReMMoC[ Grace et al. 2003], ReMMoC 
为 高 度 异 构 的 无 处 不 在 计算 环境 提供 服务 发 现 〈 人 参见 第 19 章 ) ; GridKIT[ Grace et al. 2008], Grid- 
KIT 是 一 个 用 于 网 格 计算 的 实验 性 、 高 可 配置 和 可 重 配 置 的 中 间 件 框架 ， 它 还 具有 开放 的 履 盖 框 
架 ， 用 于 构造 任意 网 络 的 虚拟 化 〈 包 括 结构 和 非 结构 的 对 等 覆盖 网 络 ) 。 

OSGi OSGi[ www. osgi. org] 是 由 开放 标准 组 织 OSGi 联盟 管理 的 基于 Java 的 中 间 件 平台 
规约 。0SGi 规约 有 很 多 实现 ， 如 Equinox, Knopflerfish, Felix 和 Concierge, OSGi 平台 支持 组 织 
成 相互 通信 的 bundle (类 似 组 件 ) 的 模块 化 软件 系统 的 部 署 、 其 后 的 生命 周期 管理 和 自 适应 。 
bundle 的 通信 是 通过 发 布 在 服务 注册 表 中 的 一 个 或 多 个 服务 接口 来 实现 的 ， 这 样 ， 它 支持 动态 
绑 定 。 作 为 生命 周期 管理 的 单位 ， 给 定 的 bunde 可 以 被 安装 、 启 动 、 激 活 、 停 止 和 缉 载 。bun- 
dle 也 可 以 在 运行 时 动态 部 署 ， 已 有 的 bundle 可 以 被 更 新 。0SGi 起 初 被 用 于 服务 网 关 编 程 ， 但 
现在 被 用 于 很 多 应 用 领域 ， 包 括 移动 电话 编程 、 针 对 网 格 计算 的 中 间 件 和 作为 Eclipse 集成 开 
发 环境 〈 即 IDE， 一 个 流行 的 多 语言 软件 开发 框架 ) 的 播 件 体系 结构 。 l 

OSGi 的 目标 是 实现 软件 集中 式 配置 的 部 署 和 管理 ， 例 如 在 单一 设备 上 或 在 服务 器 上 。0SGi 的 
分 布 式 实现 R-0SGi 也 已 开发 出 来 [Rellermeyer et al. 2007] 。 这 使 得 软件 可 以 分 发 到 任意 网 络 化 配 
| 置 的 服务 边界 上 ， R-OSGi 使 用 〈 第 2 章 首次 引 人 的 ) 代理 模式 在 这 样 的 边界 获得 透明 的 分 发 。 | 


在 接 下 来 的 滤 膜 和 控制 器 部 分 将 详细 介绍 对 重 配置 的 支持 。 

2) 层次 组 会 : 组 件 模型 是 层次 化 的 ， 这 是 因为 组 件 由 一 系列 子 组 件 和 相关 的 绑 定 构成 ， 其 中 子 组 
件 本 身 可 能 也 是 组 合 的 。 例 如 ， 上 例 中 的 ORB 内 核 在 考虑 到 其 内 在 的 复杂 性 时 可 以 进一步 分 解 。 组 合 
由 Fractal 的 体系 结构 描述 语言 (Architectural Description Language, ADL) 支持 ， 这 里 引 人 一 个 简单 的 
例子 来 展示 一 个 组 件 的 创建 ， 这 个 组 件 包含 两 个 以 客户 - 服务 器 方式 交互 的 子 组 件 : 

















<definition name="cs.ClientServer"> 
<interface name="r" role="server" 
signature="java.lang.Runnable" /> 


<component name="caller" definition="hw.CallerImpl" /> 
<component name="callee" definition="hw.Calleelmpl” /> 


<binding client="this.r" server="caller.r" /> 
<binding client="caller.s" server="callee.s" /> 
</definition> 
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Fractal ADL 是 基于 XML 的 。 这 个 例子 表明 组 件 cs. ClientServer 有 两 个 子 组 件 caller 和 callee。 在 客 


PRO this.r (该 rt 接口 被 定义 在 所 包含 的 组 件 
cs. ClientServer E) 和 相关 的 caller. r BO (r 接口 
定义 在 caller 组 件 上 ) 之 间 创 建 绑 定 ， 在 客户 接口 
caller. s 和 对 应 服务 器 接口 callee. s 之 间 也 创建 了 绑 
定 。 图 8-16 展示 了 相关 的 配置 。 

Fractal 也 支持 共享 ， 由 此 ， 一 个 特定 的 组 件 可 
以 被 多 个 软件 结构 所 共享 。Fractal 的 开发 者 认为 这 
对 于 忠实 地 表达 软件 体系 结构 (包括 对 必须 共享 的 


cs.ClientServer 








callee 











图 8-16 Fractal 组 件 配 置 示例 


底层 资源 (例如 TCP 连接 ) 的 访问 ) 是 必需 的 。 又 例如 ， 服 务 器 组 件 callee 可 能 在 多 个 配置 中 被 共享 。 

滤 膜 和 控制 器 ”在 实现 上 ， 组 件 由 滤 膜 (membrane) 和 相关 的 内 容 (content) AM, KH, WR 
通过 控制 器 集 定义 了 与 组 件 相 关 的 控制 能 力 ， 而 内 容 是 组 成 该 体系 结构 的 子 组 件 ( 及 绑 定 )。 接 口 可 
以 是 滤 膜 内 部 的 ， 这 样 的 接口 只 能 被 内 容 内 的 组 件 访问 ， 接 口 也 可 以 是 外 部 的 ， 这 样 的 接口 对 其 他 组 


件 可 见 。 组 件 的 结构 如 图 8-17 所 示 。 

Fractal 方法 中 滤 膜 的 概念 很 关键 ， 滤 膜 为 组 件 
(内 容 ) 的 封装 集合 提供 可 配置 的 控制 体制 。 换 名 
话说 ， 控 制 器 集 为 这 些 组 件 定义 了 控制 能 力 和 相 
关 的 语义 。 通 过 改变 控制 器 集 ， 组 件 相 应 的 能 力 
也 被 改变 。 

控制 器 可 以 用 于 各 种 目的 : 

。 控制 器 的 一 个 关键 作用 是 实现 生命 周期 管 

理 ， 包 括 与 激活 、 去 活 相 关 的 操作 (如 挂 
起 、 恢 复 和 执行 检查 点 )。 例 如 ，Fractal 
的 生命 周期 控制 器 (LifeCycleController) 


客户 接口 


控制 接口 
©O O © ee 
4 
ater 服务 器 接口 
内 容 H 
TA 


图 8-17 Fractal 组 件 的 结构 


使 用 三 个 方法 ， startFc、stopFc 和 getFcState， 它 们 分 别 实现 这 三 个 功能 。 当 需要 在 运行 时 实施 
底层 软件 结构 的 重 配置 时 ， 生 命 周期 控制 器 提供 的 功能 是 很 重要 的 。 考 虑 上 述 客户 - 服务 器 配 
置 的 一 个 简单 的 例子 ， 假 设 用 一 个 增强 的 服务 器 〈 可 能 支持 多 线程 以 改进 吞吐 量 ) 动态 替换 


一 个 服务 器 。 在 这 种 情况 下 ， 为 了 避免 不 
一 致 ， 最 好 是 挂 起 配置 ， 用 一 个 新 的 callee 
组 件 替 换 原 来 的 ， 然 后 恢复 配置 。 

控制 器 也 提供 反射 能 力 (参见 第 2 章 )。 
特别 是 ， 自 省 (introspection》 能 力 是 通过 
Component 和 ContentController 这 两 个 接口 
来 提供 的 ， 它 们 支持 组 件 相 关 接 口 的 自省 
(动态 发 现 ) 以 及 能 逐步 深入 组 合 组 件 结 
构 的 内 部 。 这 两 个 控制 器 完整 的 接口 如 
图 8-18 所 示 。 自 省 对 支持 动态 重 配置 也 很 
HE, REP - 服务 器 的 例子 来 说 ， 通 过 
这 些 接口 可 以 发 现 底层 组 件 配置 的 精确 结 





public interface Component { 





| 


Object{] getFcInterfaces (); 
Object getF cInterface (String itf{Name); 
Type getFcType (); 


public interface ContentController { 


Objectf1 getF cInternallnterfaces (); 

Object getFcInterfaceInterface(String itfName),; 
Component[] getF cSubComponents (0); 

void addFcSubComponent (Component c); 

void removeFcSubComponent(Component c); 











图 8-18 


Fractal 中 的 Component 和 ContentCon- 
troller 接口 
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构 (在 这 个 例子 中 ， 一 个 简单 的 配置 由 两 个 组 件 组 成 ) ， 并 能 确保 callee 组 件 的 蔡 换 者 能 严格 
支持 原 有 接口 。 
。 可 以 引入 控制 器 以 提供 拦截 能 力 ， 类 似 于 8.5.1 节 介绍 的 EB 提供 的 能 力 。 拦 截 是 一 个 有 很 多 
用 途 的 强大 的 机 制 。 在 叙述 EB 的 那 一 节 中 ,提供 了 通过 拦截 来 实现 日 志 的 例子 。 例 如 ， 在 客 
P - 服务 器 的 例子 中 ， 拦 截 可 以 以 对 caller 和 callee 完全 透明 的 方式 记录 由 caller 组 件 发 出 的 所 
有 调用 。 进 一 步 地 ， 拦 截 可 以 实现 访问 控制 策略 ， 使 得 只 有 当 指定 的 主体 具有 访问 特定 资源 的 
权利 时 才能 允许 调用 被 处 理 〈 参 见 11.2.4 节 )。 
在 研究 了 滤 膜 和 控制 器 的 相对 作用 后 ， 现 在 将 滤 膜 和 容器 联系 起 来 ， 容 器 在 8.4 节 和 上 面 EJB 实 
例 研 究 中 已 讨论 过 。 滤 膜 和 容器 一 样 ， 为 组 件 的 部 署 提供 了 场所 ， 它 们 都 支持 降 式 的 分 布 式 系统 管理 ; 
容器 通过 隐 式 地 调用 分 布 式 系统 服务 ， 而 滤 膜 则 通过 组 成 它 的 控制 器 。 然 而 ， 滤 膜 更 加 灵活 
e 就 反射 而 言 ， 它 不 仅 支持 隐藏 内 部 结构 的 黑箱 组 件 ， 但 使 用 的 方法 只 提供 有 限 的 自省 〈 动 态 发 
现 接口 ) 能 力 ; 它 还 支持 高 级 的 反射 能 力 ， 即 支持 完全 自省 ， 并 为 组 件 内 部 结构 随后 的 自 适应 
提供 内 在 的 支持 。 
。 就 非 功 能 需求 的 支持 而 言 ， 在 最 简单 情况 下 ， 例 如 部 署 最 少 的 控制 器 ， 滤 膜 仅 提供 组 件 的 简单 
封装 ， 而 另 一 个 极端 ， 它 们 支持 完备 的 组 件 分 布 式 系统 管理 ， 包 括 像 在 应 用 服务 器 中 那样 对 事 
务 、 安 全 的 支持 ,而 且 以 一 种 完全 可 配置 和 可 重 配置 的 方式 。 
由 于 Fractal 内 在 的 灵活 性 ， 它 被 称 为 一 个 开放 的 组 件 模型 。 
一 个 可 运行 的 完整 的 Fractal 实现 的 例子 可 以 在 在 线 教材 [fractal ow2. org I] 上 找到 。 这 个 例子 展 
示 了 如 何 用 Fractal 实现 了 一 个 名 为 Comanche 的 可 配置 的 、 最 小 功能 集 的 HTTP 服务 器 。 


8.6 小 结 


本 章 曾 述 了 基于 分 布 式 对 象 和 组 件 的 完整 的 中 间 件 解决 方案 的 设计 。 不 难看 出 ， 这 是 编程 抽象 的 
自然 演化 。 分 布 式 对 象 是 重要 的 ， 它 通过 封装 、 数 据 抽象 以 及 其 他 面向 对 象 设计 领域 的 相关 工具 和 技 
术 为 分 布 式 系统 带 来 了 好 处 。 因 此 ， 相 比 于 以 前 直接 基于 客户 - 服务 器 模型 的 方法 ， 分 布 式 对 象 方法 
是 一 个 重要 的 进步 。 然 而 ， 在 应 用 分 布 式 对 象 方法 时 ， 也 有 很 多 重大 缺陷 ， 本 章 对 此 进行 了 论述 和 分 
析 。 总 之 ,在 实际 中 ， 面 对 复杂 的 分 布 式 应 用 和 服务 ， 使 用 像 CORBA 这 样 的 中 间 件 方案 通常 过 于 复 
杂 ， 尤 其 是 处 理 此 类 系统 的 高 级 特性 ， 例 如 高 可 信 方 面 容错、 安全) 。 

组 件 技术 通过 内 在 地 分 离 应 用 多 辑 和 分 布 式 系统 管理 之 间 的 关注 点 来 克服 前 述 不 足 。 组 件 依赖 的 
显 式 识别 也 有 助 于 支持 分 布 式 系统 的 第 三 方 组 合 。 本 章 考察 了 EJB 3. 0 规约 ， 它 通过 使 用 POO 对 象 和 
用 Java 注解 实现 复杂 性 管理 来 进一步 简化 分 布 式 系 统 的 开发 。 正 如 我 们 看 到 的 ， 本 章 也 介绍 了 诸如 
Fractal 和 OpenCOM 等 更 加 轻 量 级 的 技术 ， 它 们 为 中 间 件 平台 自身 的 开发 带 来 了 基于 组 件 编程 的 好 处 ， 
而 且 增加 的 性 能 开销 很 小 。 

组 件 技术 对 于 分 布 式 应 用 的 开发 很 重要 ， 但 和 任何 技术 一 样 ， 它 们 也 有 自己 的 优势 和 不 足 。 例 如 ， 
组 件 方法 是 规范 性 的 ， 很 适合 类 似 3 层 体 系 结构 的 应 用 。 为 了 对 可 用 的 中 间 件 平台 技术 提供 更 广阔 的 
视角 ， 下 两 章 将 介绍 另外 的 方法 ， 即 采用 基于 Web 标准 的 方法 (Web 服务) 和 对 等 系统 。 


练习 
8.1 任务 包 (Task Bag) 是 一 个 存储 (key，value) 对 的 对 象 ，key EFIR, value 是 字 节 序列 。Task Bag 
接口 提供 以 下 远程 方法 : 
pairOut， 有 两 个 参数 ， 客 户 通过 它们 指定 待 存储 的 key 和 value, 
pairim， 客 户 通 过 第 一 个 参数 指定 要 从 Task Bag 中 删除 的 键 值 对 的 key， 键 值 对 中 的 value 通过 第 
二 个 参数 返回 给 客户 。 如 果 没 有 匹配 成 功 的 键 值 对 ， 那 么 抛 出 异常 。 
readPair， 与 pairin 功能 一 样 ， 但 并 不 删除 Task Bag 中 的 键 值 对 。 
请 使 用 CORBA IDL 来 定义 Task Bag 的 接口 。 定 义 一 个 异常 ， 当 任何 操作 无 法 执行 时 抛 出 此 异常 。 
该 异常 应 该 返回 一 个 指明 问题 号 的 整数 值 和 一 个 描述 此 问题 的 字符 串 。Task Bag 的 接口 应 单独 定义 一 


8.2 


8.3 
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个 属性 来 指明 其 中 的 任务 数目 。 (第 341 页 ) 
为 方法 pairin 和 readPair 定义 另 一 种 不 同 的 基调 ， 它 的 返回 值 能 表示 何 时 没有 匹配 成 功 的 键 值 对 。 返 
回 值 应 定义 为 枚 举 类 型 ， 值 为 ok 和 wait。 试 讨论 两 种 方式 的 相对 优点 。 当 key 中 含有 非法 字符 时 你 用 


何 种 方式 来 指明 错误 ? (第 342 页 ) 
Task Bag 接口 的 哪些 方法 可 以 定义 为 oneway 操作 ? 请 给 出 关于 oneway 方法 的 参数 和 异常 的 通用 规则 。 
关键 字 oneway 不 同 于 IDL 其 他 部 分 的 含义 是 什么 ? (第 342 页 ) 
IDL 的 union 类 型 可 以 用 来 描述 这 样 的 参数 ， 该 参数 需要 将 为 数 不 多 的 类 型 中 的 一 个 作为 参数 传递 。 
使 用 它 来 定义 参数 类 型 有 时 候 为 空 、 有 时 类 型 为 Value HER, (第 345 页 ) 
在 图 8-2 中 ， 类 型 A 被 定义 为 固定 长 度 的 序列 。 请 将 它 重 定义 为 相同 长 度 的 数组 。 请 对 如 何在 IDL 
接口 中 选择 数组 和 序列 类 型 给 出 一 些 建议 。 (第 345 页 ) 


Task Bag 的 目的 是 用 于 客户 之 闻 的 协同 ， 其 中 的 一 个 客户 添加 描述 任务 的 ) 键 值 对 ， 而 其 他 的 客户 
删除 它 〈 并 执行 所 描述 的 任务 ) 。 当 客户 被 通知 没有 可 以 匹配 的 键 值 对 时 ， 它 必须 等 待 直到 有 可 用 的 


键 值 对 。 请 定义 用 于 这 种 情况 下 的 回调 接口 。 (第 357 页 ) 
请 描述 一 下 为 允许 回调 操作 ，Task Bag 接口 必须 做 哪些 必要 的 修改 。 (第 357 页 ) 
在 Task Bag 接口 中 ， 哪 些 方法 的 参数 是 值 传递 的 ? 哪些 是 引用 传递 的 ? (第 343 页 ) 


使 用 Java IDL 编译 器 编译 读者 在 习题 8. 1 中 定义 的 接口 。 在 生成 的 与 IDL 接口 等 价 的 Java 程序 中 ， 观 
察 pairin 和 readPair 方法 的 基调 定义 。 同 时 观察 为 方法 pairin 和 readPair 的 值 (value) 参数 生成 的 
holder 方 法 的 定义 。 举 例 说 明 客 户 如 何 调用 pairin 方法 ， 解 释 如 何 通过 第 二 个 参数 获得 返回 值 。 


(第 346 页 ) 
举例 说 明 一 个 Java 客户 如 何 访问 Task Bag 对 象 中 任务 数目 属性 。 此 属性 与 对 象 的 实例 变量 在 哪些 方 
面 有 所 不 同 ? (第 345 页 ) 
解释 为 什么 远程 对 象 接口 和 CORBA MRAM IE OR? 解释 CORBA 对 象 没有 构造 函数 如 何 创 建 
对 象 ? (第 5 章 和 第 355 页 ) 
用 IDL 重 定义 习题 8. 1 中 的 Task Bag 中 的 接口 ， 其 中 使 用 struct 来 表示 键 值 对 ， 该 键 值 对 包含 一 个 
key 和 一 个 value。 注 意 : 不 要 使 用 typedef 来 定义 struct。 (第 345 页 ) 
从 可 伸缩 性 和 容错 的 角度 ， 讨 论 实现 仓库 的 功能 。 (第 350 H, 第 351 页 ) 
CORBA 对 象 在 多 大 程度 上 能 从 一 台 服 务 器 迁移 到 一 台 服 务 器 上 ? (第 350 页 , 第 351 页 ) 
请 详细 解释 一 般 的 基于 组 件 的 中 间 件 尤其 是 EB 是 如 何 克 服 分 布 式 对 象 中 间 件 的 主要 不 足 的 。 请 举 
例 说 明 。 - (第 358 ~364 页 ) 
讨论 EB 体系 结构 是 否 适合 实现 大 型 多 人 在 线 游戏 (最 初 在 1.2.2 节 引 入 的 应 用 领域 )? 在 这 个 领域 
使 用 EIB 的 优势 和 不 足 有 哪些 ? (第 364 页 ) 
Fractal 在 大 型 多 人 在 线 游戏 领域 是 更 合适 的 实现 选择 吗 ? 为 什么 ? (第 372 页 ) 
解释 基于 容器 的 思想 如 何 为 分 布 式 组 件 提供 透明 迁移 。 (第 362 页 ) 
在 Fractal 中 如 何 实 现 相同 的 效果 ? (第 375 页 ) 


考虑 把 Java RMI 的 实现 看 做 是 Fractal 中 的 组 合 绑 定 。 讨 论 这 种 绑 定 在 什么 程度 上 是 可 配置 的 和 可 重 
配置 的 ? (第 5 章 , 第 373 页 ) 
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Web 服务 提供 了 服务 接口 ， 使 客户 能 以 一 种 比 Web 浏览 器 更 通用 的 方式 与 服务 器 进行 交互 。 客 户 
通过 在 HTTP 上 传输 的 XML 格式 的 请 求 和 应 答 访问 Web 服务 接口 中 的 操作 。 可 以 通过 比 基 于 CORBA 
的 服务 更 自主 的 方式 访问 Web 服务 ， 从 而 可 以 使 其 更 容易 被 互联 网 范围 中 的 应 用 程序 使 用 。 

与 CORBA 和 Java 一样 ，Web 服务 的 接口 可 以 用 接口 定义 语言 (DL) 描述 。 但 对 于 Web 服务 ， 
还 需要 描述 额外 的 信息 ， 包 括 所 用 的 编码 和 通信 协议 以 及 服务 位 置 等 。 

用 户 需 要 以 安全 的 方式 创建 、 存 储 和 修改 文档 以 及 在 互联 网 上 交换 文档 ，TLS (Transport Layer Se- 
eurity， 相 关 描述 见 第 9 章 ) 提供 的 安全 通道 并 不 能 满足 这 些 要 求 ， 而 XML 安全 性 试图 解决 这 些 问题 。 

Web 服务 在 分 布 式 系统 中 日 渐 重要 : 它们 支持 跨 全 球 互联 网 的 互 操作 性 ， 包 括 业 务 到 业务 集成 中 
的 关键 领域 以 及 新 出 现 的 mashup XIE, 后 者 使 得 第 三 方 开 发 者 在 已 有 服务 基础 上 创建 新 型 软件 。Web 
服务 也 提供 网 格 和 云 计算 的 底层 中 间 件 。 


9.1 简介 


UE 20 年 网 络 的 增长 (参见 图 1-6) 证 明了 在 互联 网 上 使 用 简单 协议 作为 大 量 广 域 服务 和 应 用 的 基 
础 是 有 效 的 。 特 别 是 HTTP 的 请 求 - 应 答 协议 〈 见 5.2 节 ) 允许 通用 客户 即 浏览 器 )， 通 过 URL 引 
用 查看 网 页 及 其 他 资源 (URL: 见 下 面 对 URI, URL 和 URN 的 注释 ) 。 

然而 ， 即 使 可 以 使 用 下 载 的 特定 于 应 用 程序 的 applet 来 增强 功能 ， 用 通用 浏览 器 作为 客户 仍 限制 
了 潜在 的 应 用 程序 范围 。 在 最 初 的 客户 - 服务 器 模型 中 ， 客 户 和 服务 器 从 功能 上 是 专门 化 的 。Web 服 
务 又 回 到 了 这 个 模型 ， 在 Web 服务 中 ， 应 用 程序 特定 的 客户 与 具有 特定 功能 接口 的 服务 在 互联 网 上 进 
行 交 互 。 

因此 ，Web 服务 提供 了 基础 设施 来 维持 客户 和 服务 器 之 间 的 更 丰富 并 且 更 加 结构 化 的 互 操作 性 。 
Web 服务 提供 了 一 个 基础 ， 使 得 一 个 组 织 中 的 客户 程序 可 以 在 无 人 监督 的 情况 下 与 另 一 个 组 织 中 的 服 
务 器 交互 。 特 别 地 ，Web 服务 允许 通过 提供 集成 了 几 个 其 他 服务 的 服务 来 开发 复杂 的 应 用 程序 。 由 于 
这 些 交 互 的 通用 性 ，Web 服务 不 能 直接 通过 浏览 器 访问 。 

将 Web 服务 附加 到 Web 服务 器 是 以 使 用 HTTP 请 求 引发 程序 的 执行 的 能 力 为 基础 的 。 回 忆 一 下 ， 
当 HTTP 请 求 中 的 URL 指向 一 个 可 执行 的 程序 ， 例 如 一 个 搜索 程序 ， 那 么 该 程序 将 生成 结果 并 将 其 返 
回 。 与 此 类 似 ，Web 服务 是 Web 的 扩展 ， 并 且 可 以 由 Web 服务 器 提供 。 但 这 些 服 务 器 可 以 不 必 是 Web 
服务 器 。 不 应 该 混淆 术语 “Web 服务 器 ”和 “Web 服务 ”: Web 服务 器 提供 基本 的 HTTP 服务 ， 而 
Web 服务 提供 的 服务 基于 在 其 接口 中 定义 的 操作 。 

外 部 数据 表示 和 客户 与 Web 服务 之 间 交 换 的 消息 的 编码 是 以 XML 的 形式 完成 的 ，4. 3. 3 节 中 已 描 
述 过 。 简 言 之 ，XML 是 一 种 文本 表示 方式 ， 虽 然 比 其 他 表示 所 占 空 间 更 大 ， 但 由 于 其 可 读 性 和 易于 调 
试 而 被 广泛 采用 。 

SOAP 协议 (9.2.1 节 ) 指定 了 使 用 XML 封装 消息 (例如 支持 请 求 - 应 管 协议 的 消息 ) 的 规则 。 
图 9-1 总 结 了 Web 服务 运作 的 通信 体系 结构 的 要 点 : Web 服务 由 URI 定义 ,客户 可 以 使 用 XML 格式 的 
消息 对 其 进行 访问 。SOAP 用 来 封装 消息 并 在 HTTP 或 其 他 协议 (如 TCP 或 SMIP) 上 传送 这 些 消息 。 
Web 服务 为 潜在 的 客户 部 署 服务 描述 来 指定 接口 或 服务 的 其 他 方面 。 


URI, URL 和 URN 统一 资源 标识 符 (Uniform Resource Identifier, URI) 是 一 种 通用 资源 标 
识 符 ， 其 值 可 以 为 URL 或 URN。 所 有 Web 用 户 熟 知 的 URL 包括 资源 定位 信息 ， 例 如 命名 资源 的 服 
务 器 的 域名 。 统 一 资源 名 称 (Uniform Resource Name, URN) 是 位 置 独立 的 ， 其 依赖 于 查找 服务 来 
映射 到 资源 的 URL。 有 关 URN 的 详细 信息 请 见 13. 1 节 。 
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图 9-1 的 顶层 说 明 : 
© Web 服务 和 应 用 程序 可 以 构建 于 其 他 
Web 服务 之 上 。 应 用 程序 
e 一 些 特定 的 Web 服务 为 大 量 其 他 Web 目录 服务 ”安全 ”编排 
服务 的 操作 提供 了 所 需要 的 通用 功能 ， i 
包括 目录 服务 、 安 全 和 编排 。 我 们 将 aa i o 
在 本 章 稍 后 部 分 讨论 这 些 功 能 。 SOAP 
Web 服务 一 般 提 供 一 个 服务 描述 (service 
description) ， 包 括 接口 定义 和 其 他 信息 ， 如 服 UR! (URL 或 URN) 、XML、HTTP、SMTP 或 其 他 传输 协议 
务 器 的 URL。 服 务 描 述 可 作为 客户 和 服务 器 之 
间 对 所 提供 的 服务 达成 共识 的 基础 。9.3 节 介 图 9-1 Web 服务 基础 设施 和 组 件 
绍 了 Web 服务 描述 语言 (Web Services Description Language, WSDL) o 
中 间 件 的 另 一 个 共同 需求 是 允许 客户 找到 服务 的 名 字 或 目录 服务 。Web 服务 的 客户 也 有 类 似 的 需 
RK, 但 经 常 在 没有 目录 服务 的 情况 下 进行 管理 。 例 如 ， 它 们 经 常 从 网 页 上 的 信息 (例如 ， 从 Google 的 
搜索 结果 ) 中 查找 服务 。 然 而 ,已 有 一 些 工作 能 提供 适合 组 织 内 部 使 用 的 目录 服务 ， 这 些 内 容 将 在 
9.4 节 讨 论 。 
我 们 将 在 9. 5 节 介 绍 XML 安全 性 。 在 这 种 达到 安全 性 的 方法 中 ， 可 以 对 文档 或 文档 的 若干 部 分 进 
行 签名 或 加 密 。 然 后 可 以 传输 或 存储 经 过 签名 或 加 密 的 元 素 ， 之 后 可 以 附加 信息 ， 而 这 个 附加 信息 也 
可 以 被 签名 或 加 密 。 
Web 服务 可 以 使 远程 客户 访问 资源 ， 但 不 负责 协调 它们 之 间 的 相互 操作 。9.7.3 节 将 讨论 Web 服 
务 的 编排 ， 它 允许 Web 服务 在 使 用 其 他 服务 集 时 ， 使 用 预定 义 的 访问 模式 。 
本 章 的 最 后 一 节 考 虑 了 Web 服务 的 应 用 ， 包括 对 面向 服务 的 体系 结构 、 网 格 和 云 计 算 。 


9.2 Web 服务 


Web 服务 接口 通常 由 客户 可 以 在 互联 网 上 使 用 的 操作 集合 组 成 。Web 服务 中 的 操作 可 以 由 各 种 不 
同 的 资源 提供 ， 如 程序 、 对 象 或 数据 库 。Web 服务 既 可 以 与 网 页 一 起 被 Web 服务 器 管理 ， 也 可 以 完全 
独立 的 服务 。 

KER Web 服务 的 关键 特征 是 可 以 处 理 XML 格式 的 SOAP 消息 (参见 9.2. 1 节 ) ， 另 一 种 替代 方 
法 是 在 386 页 方 框 中 列 出 的 REST 方法 。 每 个 Web 服务 使 用 自己 的 服务 描述 处 理 它 接 收 到 的 消息 中 特 
定 于 服务 的 特征 。 有 关 Web 服务 的 更 详细 的 介绍 见 Newcomer[ 2002] 或 Alonso 等 [2004], 

许多 知名 的 商业 Web 服务 器 (包括 Amazon, Yahoo, Google 和 eBay) 提供 允许 客户 操纵 网 络 资源 
的 Web 服务 接口 。 例 如 ，Amazon. com 的 Web 服务 提供 了 一 些 操作 ， 人 允许 客户 获取 商品 的 信息 ， 以 及 
将 某 项 商品 添加 到 购物 车 中 或 检查 交易 状态 。Amazon 的 Web 服务 [ associates. amazon. com] 可 以 通过 
SOAP 或 REST 访问 。 这 可 以 使 第 三 方 应 用 程序 在 Amazon. com 提供 的 服务 之 上 开发 增值 服务 。 例 如 ， 
一 个 库存 控制 和 购买 应 用 程序 可 以 在 Amazon. com 需要 商品 时 订购 各 种 商品 ， 并 自动 追踪 每 个 订单 的 
状态 变化 。 自 从 引入 这 些 Web 服务 后 ， 两 年 内 有 超过 50 000 的 开发 人 员 注 册 使 用 这 项 Web 服务 
[ Greenfield and Dornan 2004 ] , 

使 用 Web 服务 的 应 用 程序 的 另 一 个 有 趣 的 例子 是 在 eBay 拍卖 中 实现 了 称 为 “snipping” 的 应 用 程 
序 。snipping 的 意思 是 在 拍卖 结束 前 的 最 后 几 秒 钟 内 投标 。 虽 然 用 户 可 以 在 网 页 上 执行 相同 的 动作 ,但 
却 不 一 定 那么 迅速 。 

Web 服务 的 组 合 提供 Web 服务 接口 允许 该 操作 与 其 他 服务 的 操作 进行 组 合 ， 从 而 提供 新 的 功能 
(参见 9.7.1 节 ) 。 实 际 上 ， 上 面 提 到 的 购买 程序 可 能 也 使 用 其 他 供应 商 的 服务 。 另 一 个 体现 几 个 服务 
进行 组 合 的 优点 的 例子 是 : 考虑 到 人 们 目前 使 用 多 种 不 同 网 站 联机 订购 机 票 、 酒 店 和 租赁 汽车 ， 如 果 
每 个 Web 网 站 都 提供 标准 的 Web 服务 接口 ， 那 么 “旅行 代理 服务 ”可 以 使 用 它们 的 操作 为 旅行 者 提 
供 上 述 服务 的 一 个 组 合 ， 如 图 9-2 所 示 。 
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Be -o Pe 
图 9-2 组 合 其 他 Web 服务 的 “旅行 代理 服务 ” 


通信 模式 ”旅行 代理 服务 阐述 了 Web 服务 中 可 以 使 用 的 两 种 可 以 蔡 换 的 通信 模式 : 

© 预定 的 处 理 需 要 很 长 时 间 完 成 ， 这 可 以 通过 文档 的 异步 交换 获得 良好 的 支持 ， 开 始 传 递 日 期 和 

目的 地 的 详细 信息 ， 然 后 是 不 时 返回 状态 信息 直至 返回 完成 信息 。 这 里 不 考虑 性 能 。 

。 信用 卡 信息 的 检查 和 与 客户 的 交互 应 由 请 求 - 应 答 协议 支持 。 

一 般 来 说 ，Web 服务 要 人 么 使 用 同步 请 求 - 应 答 模式 与 其 客户 通信 ， 要 么 通过 异步 消息 进行 通信 。 
后 一 种 通信 风格 甚至 可 以 用 在 请 求 需要 应 答 时 ， 在 这 种 情况 下 ， 客 户 发 送 请 求 ， 然 后 异步 接收 应 答 。 
此 外 ， 还 可 以 使 用 事件 风格 模式 。 例 如 ， 目 录 服 务 的 客户 可 以 注册 其 感 兴趣 的 事件 ， 当 某 个 事件 〈 诸 
如 一 个 服务 的 到 达 或 离开 ) 发 生 时 将 会 通知 客户 。 

考虑 到 存在 多 种 通信 模式 ，SOAP 协议 (讨论 见 9.2.1 节 ) 基于 单个 单 向 消息 的 封装 。 通 过 使 用 
单 向 消息 对 并 指定 如 何 表示 操作 、 操 作 的 参数 和 结果 来 支持 请 求 - 应 答 交 互 。 

更 一 般 来 讲 ，Web 服务 是 为 在 多 种 不 同 的 编程 语言 和 范 型 并 存 的 互联 网 环境 下 支持 分 布 式 计算 而 
设计 的 ， 因 此 ， 它 独立 于 任何 特定 的 编程 范 型 。 相 比 而 言 ， 分 布 式 对 象 主张 为 开发 者 提供 相对 特定 的 
开发 范 型 (关于 两 者 不 同 的 进一步 的 讨论 见 9. 2.2 节 ) 。 

BRA ”在 分 布 式 系统 中 ， 松 耦合 〈loose coupling) 被 广泛 关注 ， 特 别 是 在 Web 服务 社区 中 ， 虽 
然 术语 的 定义 经 常 是 不 清楚 、 不 精确 的 。 在 Web 服务 环境 中 ， 松 耦合 指 的 是 最 小 化 服务 之 间 的 依赖 ， 
以 便 有 一 个 灵活 的 底层 体系 结构 。 (减少 由 在 一 个 服务 中 发 生 改变 而 带 来 的 风险 ， 会 对 另 一 个 服务 产生 
相应 的 作用 。) Web 服务 原本 的 独立 性 和 后 来 产生 Web 服务 组 合 的 意图 能 部 分 支持 这 点 。 然 而 ， 有 许 
多 额外 的 特征 可 以 增强 松 耦合 : 

。 用 接口 编程 ( 见 第 5 章 的 讨论 ) 即将 接口 与 它 的 实现 分 离 提供 了 一 层 松 耦 合 。( 这 也 支持 异 构 
性 的 重要 方面 ， 例 如 选择 编程 语言 和 所 使 用 的 平台 。) 接口 编程 被 大 多 数 分 布 式 系统 范 型 所 采 
用 ， 除 了 Web 服务 之 外 ， 还 包括 分 布 式 对 象 和 组 件 (相关 讨论 见 第 8 章 )。 

分 布 式 系统 使 用 简单 的 、 通 用 的 接口 是 一 个 趋势 ， 相 关 的 例证 是 由 万 维 网 和 Web 服务 中 的 
REST 方法 提供 的 最 小 化 接口 。 这 种 方法 通过 减少 对 特定 操作 名 字 的 依赖 而 对 松 耦 合 有 所 贡献 。 
(第 21 章 中 的 Google 实例 研究 提供 了 分 布 式 编程 风格 的 更 进一步 的 例子 。) 这 个 特征 导致 的 结 
果 是 数据 变 得 比 操作 更 重要 ， 而 互 操 作 的 语义 经 常 被 数据 所 拥有 〈 例 如， 在 Web 服务 中 相关 
的 XML 文档 定义 ) ; 这 个 面向 数据 的 视图 将 在 19. 3. 2 节 做 进一步 讨论 。 

如 上 所 述 ，Web 服务 能 通过 许多 通信 范 型 而 被 使 用 ,包括 请 求 -应 答 通信 、 异 步 消息 或 真正 的 
间接 通信 范 型 (如 第 6 章 所 述 ) 。 耦 合 的 层次 直接 受 这 个 选择 的 影响 。 例 如 ， 在 请 求 - 应 答 通 
信 中 ， 双 方 是 内 在 耦合 的 ; 异步 消息 提供 一 定 程度 的 解 耦合 〈 在 第 6 章 中 被 称 为 同步 解 耦合 ) ， 
而 间接 通信 提供 时 间 和 空间 解 耦 合 。 

总 之 ， 松 克 合 有 许多 维度 ， 使 用 这 个 术语 时 记 住 这 一 点 很 重要 。Web 服务 内 在 支持 一 定 程度 的 松 
耦合 ， 是 因为 它 所 采用 的 设计 方法 学 和 用 接口 编程 的 方法 。 额 外 的 设计 选择 包括 采用 REST 方法 和 使 
用 间接 通信 ， 这 能 进一步 提高 松 耦合 的 层次 。 

WERT SOAP 及 其 携带 的 数据 都 是 用 4. 3. 3 节 介 绍 的 XML 表示 的 ，XML 是 一 种 自 描述 的 文本 
格式 。 文 本 表示 比 二 进 制 表示 占用 的 空间 更 多 ， 也 需要 更 多 的 处 理 时 间 。 在 文档 方式 的 交互 中 不 用 考 
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BRERA, HER -应 答 交 互 中 速度 却 十 分 重要 。 然 而 ,使 用 可 读 的 格式 也 有 优势 ， 它 可 以 很 
容易 地 构造 简单 消息 并 调试 更 复杂 的 消息 。 

XML 描述 中 的 每 一 项 都 标注 了 它 的 类 型 ， 每 种 类 型 的 含义 由 描述 中 引用 的 模式 定义 。 这 使 得 格式 
具有 可 扩展 性 ， 可 以 传输 任何 类 型 的 数据 。 对 XML 格式 文档 的 潜在 丰富 性 和 复杂 性 并 没有 限制 ， 但 在 
解释 一 些 过 于 复杂 的 文档 时 可 能 存在 困难 。 










REST (Representational State Transfer) REST[ Fielding 2000] 是 一 种 具有 一 类 非常 受 约束 的 操 
作风 格 的 方法 。 在 该 方法 中 ， 客 户 使 用 URL 和 HTTP 操作 GET, PUT, DELETE 和 POST 来 操作 以 
XML 表示 的 资源 。 重 点 是 对 数据 资源 的 操作 而 非 接口 。 在 创建 一 个 新 的 资源 时 ， 该 资源 获得 一 个 
新 的 URL， 使 用 该 URL 可 以 对 资源 进行 访问 或 更 新 。 这 里 ， 是 将 资源 的 完整 状态 提供 给 客户 ， 而 
不 是 调用 某 个 操作 提供 一 部 分 状态 。Fielding 认为 在 互联 网 中 ， 繁 入 出 不 同 的 服务 接口 不 如 一 个 简 
单 、 最 小 、 统 一 的 操作 和 集 更 为 有 用 。 根 据 Greenfield 和 Dorman[ 2004] ， 在 Amazon. com 80% 对 Web 
服务 的 请 求 都 是 通过 REST 接口 进行 ， 而 剩 下 的 20% 使 用 SOAP。 


服务 引用 ”一般 来 说 ， 每 个 Web 服务 都 有 一 个 URI， 客 户 可 以 使 用 该 URI 来 访问 服务 。URI 最 常 
用 的 形式 是 URL。 由 于 URL 包含 计算 机 的 域名 ， 因 此 始终 可 以 访问 其 指向 的 该 计算 机 上 的 服务 。 然 
ii, 使 用 URN 的 Web 服务 的 访问 点 依赖 于 上 下 文 ， FRAN SAAB, Web 服务 当前 的 URL 可 以 
通过 URN 查找 服务 获得 。 这 个 服务 引用 被 称 为 Web 服务 的 端点 (endpoint) 。 

服务 的 激活 ”如 果 一 个 Web 服务 当前 的 URL 中 包含 了 一 合计 算 机 的 域名 ， 那 么 可 以 通过 该 计算 机 
访问 列表 服务 。 该 计算 机 可 能 自己 运行 该 服务 ， 也 可 能 在 另 一 台 服 务 器 计算 机 上 运行 该 服务 。 例 如 ， 
一 个 拥有 上 万 个 客户 的 服务 可 能 需要 部 署 在 儿 百 台 计算 机 上 。Web 服务 可 以 连续 和 运行， 也 可 以 只 在 需 
要 时 激活 。URL 是 持久 性 引用 ， 这 意味 着 只 要 URL 指向 的 服务 器 存在 ， 它 将 永远 指向 某 个 服务 。 

透明 性 ”许多 中 间 件 平台 的 主要 任务 是 将 程序 员 从 数据 表示 和 编码 以 及 远程 访问 本 地 化 的 细节 中 
解脱 出 来 。 而 这 些 在 Web 服务 的 基础 设施 或 中 间 件 平台 中 都 没有 提供 。 在 最 简单 的 层次 上 ， 客 户 和 服 
务 器 可 以 直接 以 SOAP 格式 使 用 XML 读 写 消息 。 

但 是 为 了 方便 起 见 ，SOAP 和 XML 的 细节 通常 被 某 种 编程 语言 (如 Java, Perl, Python 或 C++ ) 
的 本 地 API 隐藏 。 在 这 种 情况 下 ， 服 务 描述 可 以 作为 自动 生成 所 需 编码 和 解码 程序 的 基础 。 

RE: 可 以 通过 提供 客户 代理 或 存根 过 程 集 来 隐藏 本 地 和 远程 调用 的 区 别 。9. 2. 3 节 给 出 了 Java 
中 对 此 的 实现 方法 。 客 户 代理 或 存根 所 供 调用 的 静态 形式 ， 在 进行 任何 调用 前 ， 都 需要 在 代理 中 生成 
每 个 调用 的 框架 和 编码 过 程 。 

动态 调用 : 代理 的 一 个 替代 方法 是 给 客户 提供 一 个 通用 操作 ， 在 使 用 时 不 用 考虑 要 调用 的 远程 过 
程 ， 这 与 图 5-3 中 定义 的 DoOperation RAY 〈 但 没有 第 一 个 参数 ) 。 在 这 种 情况 下 ， 客 户 指定 操作 
的 名 称 和 参数 ， 并 在 运行 中 将 其 转化 为 SOAP 和 XML。 类 似 的 ， 可 以 通过 提供 为 客户 发 送 和 接收 消息 
的 通用 操作 来 实现 单条 消息 的 异步 通信 。 


9.2.1 SOAP 


SOAP 旨 在 互联 网 上 实现 客户 - 服务 器 以 及 异步 交互 。 它 定义 了 使 用 XML 表示 请 求 和 应 管 消息 内 
容 的 模式 ( 见 图 5-4) ， 也 定义 了 文档 通信 的 模式 。 最 初 SOAP 仅仅 基于 HTTP, 但 是 当前 的 版 本 由 在 使 
用 各 种 传输 协议 ， 包 括 SMTP, TCP 或 UDP。 本 节 的 描述 是 基于 SOAP 版 本 1. 2[ www. w3. org IX], EE 
万 维 网 联盟 (W3C) 的 推荐 标准 。SOAP 是 Userland XML-RPC[ Winer 1999] 的 扩展 。 

SOAP 规约 规定 了 : 

。 如 何 使 用 XML 表示 一 条 消息 的 内 容 ; 

© 如何 组 合 一 个 消息 对 来 生成 请 求 -~ 应答 模式 ; 

。 消息 的 接收 者 如 何 处 理 消息 中 的 XML 元 素 的 有 关 规 则 ; 

e HITP 和 SMTP 如 何 传送 SOAP 消息 。 和 希望 将 来 的 规范 能 够 定义 如 何 使 用 其 他 传输 协议 ， 

如 TCP。 
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本 节 描 述 SOAP 如 何 使 用 XML 表示 消息 以 及 如 何 使 用 HTTP 传送 消息 。 但 是 ， 程 序 员 通常 不 需要 
关心 这 些 细节 ， 因 为 SOAP API 已 经 在 很 多 编程 语言 中 得 到 实现 ， 这 些 语言 包括 Java, JavaScript, Perl, 
Python, . Net、C、C++ 、C# 和 Visual Basic, 

为 了 支持 客户 - 服务 器 通信 ，SOAP 规定 如 何 对 请 求 消息 使 用 HTTP POST 方法 和 其 对 应 答 消 息 的 
响应 。XML 和 HTTP 的 组 合 使 用 为 互联 网 上 的 客户 - 服务 器 通信 提供 了 标准 的 协议 。 

SOAP 消息 在 传送 到 管理 要 访问 的 资源 的 计算 机 
的 途中 需要 经 过 一 些 中 间 结 点 ， 高 层 中 间 件 服务 ( 例 


envelope 


header 
or ne 可 以 使 用 这 些 中 间 结 点 来 imik GE 
SOAP 消息 ”SOAP 消息 装载 在 一 个 “信封 ”中 。 
在 信封 内 有 一 个 可 选 的 头 部 和 主体 ， 如 图 9-3 所 示 。 body 
消息 头 部 可 以 用 于 建立 服务 所 需 的 上 下 文 或 维持 操作 主体 元 素 主体 元 素 


的 日 志 或 审计 。 某 个 中 间 结 点 可 以 解释 并 按照 消息 头 
部 的 信息 行事 ， 如 增加 、 更 改 或 删除 信息 。 消 息 主 体 
携带 某 个 Web 服务 的 XML 文档 。 9-3 ”信封 中 的 SOAP 消息 

XML 元 素 envelope、header 和 body 以 及 SOAP 消息 的 其 他 属性 和 元 素 一 起 被 定义 为 SOAP XML 名 
字 空 间 中 的 模式 。 有 关 该 模式 的 定义 可 以 查阅 W3C 的 网 站 [www. w3. org IX], 

由 于 使 用 了 文本 编码 ，XML 模式 可 以 使 用 浏览 器 中 的 “查看 源 文件 ”选项 查看 。 头 部 和 主体 都 包 
含 内 部 元 素 。 

前 一 节 已 经 说 过 ， 服 务 描述 包含 客户 和 服务 器 要 共享 的 信息 。 消 息 发 送 者 使 用 这 些 描述 生成 body， 
并 确保 其 包含 了 正确 的 内 容 ， 消 息 接收 者 使 用 这 些 描 述 分 析 并 检查 内 容 的 有 效 性 。 

SOAP 消息 可 以 用 于 传送 文档 或 支持 客户 - 服务 器 通信 ， 

© 将 要 传送 的 文档 直接 放 在 body 元 素 中 ， 并 将 对 包含 服务 描述 的 XML 模式 的 引用 同时 放 入 body 

元 素 中 ， 该 模式 定义 了 文档 中 使 用 的 名 称 和 类 型 。 这 种 类 型 的 SOAP 消息 可 以 同步 或 异步 发 送 。 
。 对 于 客户 - 服务 器 通信 ，body 元 素 包 含 一 个 Request 或 Reply。 这 两 种 情况 在 图 9-4 和 图 9-5 中 
展示 。 

图 9-4 给 出 了 一 个 没有 头 部 的 简单 请 求 消息 。body 中 封装 了 元 素 m，m 包含 了 要 调用 的 过 程 的 名 
称 以 及 相关 服务 描述 的 名 字 空 间 (包含 XML 模式 的 文件 ) 的 URI。 请 求 消息 的 内 部 元 素 包 含 过程 的 参 
数 。 该 请 求 消息 提供 了 两 个 字符 串 ， 服 务 器 上 的 过 程 以 相反 的 顺序 返回 这 两 个 字符 串 。 用 env 表示 的 
XML 名 字 空 间 包 含 envelope 的 SOAP 定义 。 图 9-5 给 出 了 相应 的 成 功 应 答 消 息 ， 其 中 包含 两 个 输出 参 
数 。 注 意 ， 在 过 程 的 名 称 上 增加 了 “Response”。 如 果 过 程 有 返回 值 ， 则 可 以 表示 为 元 素 rpe: result, 
应 管 消息 与 请 求 消息 使 用 相同 的 两 个 XML 模式 , 第 一 个 模式 定义 了 SOAP 信封 ， 第 二 个 模式 定义 了 特 
定 于 应 用 程序 的 过 程 和 参数 名 称 。 


env:envelope xmins:env = SOAP 信封 的 命名 空间 URI 


env: body 
~ mexchange 
”xmins:m = 服务 描述 的 命名 空间 URI 
margl | m:arg 2 
Hello World 


图 9-4 一 个 没有 头 部 的 简单 请 求 示例 
在 本 图 和 下 图 中 ， 每 个 XML 元 素 都 用 阴影 框 表示 。 其 名 称 为 斜体 ， 后 跟 属 性 和 内 容 。 
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env:envelope Xmlns env = SOAP 信 封 的 命名 空间 URI 


env: 2 
om -exchangeRespons 
xmins:m = 服务 描述 的 命名 空间 的 URI 
m:res | m:res 2 


World | Hello 


图 9-5 对 应 于 图 9-4 中 请 求 的 应 答 示例 


SOAP 故障 : 如 果 请 求 在 某 种 情况 下 失败 了 ， 则 在 应 答 消息 的 主体 中 用 fault 元 素 传送 故障 描述 。 
该 元 素 包 含 故障 的 相关 信息 ， 包 括 代码 和 相关 字符 串 以 及 特定 于 应 用 程序 的 细节 。 

SOAP 头 部 ”消息 头 部 可 由 中 间 结 点 添加 在 处 理 装 载 在 相应 主体 中 消息 的 服务 中 。 然 而 ， 这 种 用 
法 有 两 个 方面 在 SOAP 规约 中 尚 不 清晰 : 

1) 头 部 如 何 被 某 种 更 高 层 中 间 件 服务 使 用 。 例 如 ， 头 部 可 能 包含 : 

。 事务 服务 使 用 的 事务 标识 符 ; 

。 消息 之 间 互 相关 联 ( 例 如， 实现 可 靠 传输 ) 的 消息 标识 符 ; 

。 用 户 名 、 数 字 签 名 或 公 钥 。 

2) 消息 如 何 经 由 中 间 结 点 集 路 由 到 最 终 接 收 者 。 例 如 ， 由 HTTP 传输 的 消息 可 以 经 由 一 系列 代理 
服务 器 ， 其 中 有 些 可 能 作为 一 个 SOAP 角色 。 

然而 ， 规 约 规定 了 中 间 结 点 的 角色 和 职责 。 名 为 role 的 属性 可 以 指定 每 个 中 间 结 点 都 处 理 元 素 或 
者 都 不 处 理 元 素 ， 或 者 只 是 最 终 接 收 者 处 理 元 素 [ www. w3. org IX] 。 要 执行 的 某 个 动作 由 应 用 程序 定 
义 ， 例 如 某 个 动作 可 以 是 记录 元 素 的 内 容 。 

SOAP 消息 的 传输 需要 使 用 传输 协议 将 SOAP 消息 发 送 到 它 的 目的 地 。SOAP 消息 独立 于 使 用 的 
传输 类 型 一 一 消息 的 信封 不 包含 对 目的 地 址 的 引用 。 目 的 地 址 由 HTTP 或 其 他 用 于 传输 SOAP 消息 的 协 

图 9-6 阐述 了 如 何 使 用 HTTP POST 方法 传输 SOAP 消息 。HTTP 头 部 和 主体 的 作用 如 下 : 

o HTTP 头 部 指定 端点 地 址 〈 最 终 接收 者 的 URI) 和 要 执行 的 动作 。Action 头 部 用 于 最 优化 调 

度 一 一 通过 给 出 操作 的 名 称 而 不 需要 分 析 HTTP 消息 主体 中 的 SOAP 消息 。 
e HTTP 主体 封装 SOAP 消息 。 
POST |examples|stringer 
Host:www.cdk4.net 


Content-Type:application|soap+xml 
Action: ing /ww cdk4. nevexamples/sringrtexchange 








- Ms 


HTTP 头 部 





<env-envelope xmins:env = SOAP 信封 的 命名 空间 的 URI> 
<env:header> </env:header> 

<env:body> </env: body> 

</env:Envelope> __ 


SOAP 消 息 


图 9-6 SOAP 客户 - 服务 器 通信 中 HTTP POST 请 求 的 使 用 


由 于 HTTP 是 同步 协议 ， 它 用 于 返回 一 个 包含 SOAP 应 答 的 应 答 ， 类 似 图 9-5 所 示 。5.2 节 详 述 了 
对 于 成 功 请 求 和 失败 请 求 ，HTTP 返回 的 状态 代码 和 原因 。 

如 果 一 个 SOAP Request 仅仅 是 要 返回 信息 的 请 求 ， 不 含 任何 参数 并 且 不 改变 服务 器 中 的 数据 ， 那 
么 可 以 使 用 HTTP GET 方法 来 执行 它 。 


389 
1 
390 
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上 面 关 于 Action 头 部 和 调度 的 特点 适用 于 任何 为 客户 执行 不 同 动作 的 服务 ， 即 使 这 个 服务 不 提供 
这 样 的 操作 。 例 如 ，Web 服务 可 以 处 理 大 量 不 同类 型 的 文档 ， 如 购买 订单 和 询问 ， 它 们 是 由 不 同 的 软 
件 模 块 处 理 的 。Action 头 部 使 得 可 以 不 需要 检查 SOAP 消息 就 能 选择 正确 的 模块 。 这 个 头 部 可 以 在 
HTTP 内 容 类 型 指定 为 application/ soap + xml 时 使 用 。 

SOAP 信封 的 定义 和 有 关 如 何 发 送 以 及 发 送 目的 地 信息 的 分 离 使 得 使 用 多 种 不 同 的 底层 协议 成 为 
可 能 。 例 如 ，SOAP 规约 规定 了 SMTP 如 何 作为 一 种 替代 协议 传输 编码 为 SOAP 消息 的 文档 。 

但 是 这 个 优势 也 是 个 弱点 。 这 意味 着 开发 者 必须 考虑 所 选择 的 特定 传输 协议 的 细节 。 另 外 ， 这 为 
某 个 消息 经 过 的 路 由 的 不 同 部 分 使 用 不 同 协议 带 来 了 困难 。 

WS- Addressing: SOAP 寻 址 和 路 由 的 进展 ”前 面 提 到 了 两 个 问题 : 

© 如何 使 SOAP 独立 于 底层 使 用 的 传输 协议 。 

© 如 何 为 一 条 SOAP 消息 指定 通过 中 间 结 点 集 时 遵循 的 路 由 。 

Nielsen 和 Thatte[ 2001] 在 该 领域 早期 的 工作 建议 应 该 在 SOAP 头 部 指定 端点 地 址 和 调度 信息 。 这 
样 做 能 有 效 地 将 消息 日 的 地 同 底层 协议 分 开 。 他 们 提出 通过 给 出 端点 地 址 和 “下 一 跳 ” 地 址 来 指定 要 
遵循 的 路 径 。 每 个 中 间 结 点 都 可 以 更 新 “下 一 跳 ” 信 息 。 

Box 和 Curbera[ 2004] 的 工作 认为 : 允许 中 间 结 点 改变 头 部 信息 会 破坏 安全 性 。 他 们 提出 了 Ws- 
Addressing， 人 允许 SOAP 头 部 指定 消息 路 由 数据 ， 用 底层 的 SOAP 基础 设施 提供 “下 一 跳 ” 信 息 。WS- 
Addressng 的 W3C 推荐 标准 见 [ www. w3. org XXII]1。 这 种 寻 址 使 用 一 个 端点 引用 (Endpoint Refer- 
一 个 包含 目的 地 地 址 、 路 由 信息 和 其 他 可 能 的 关于 服务 的 信息 的 一 个 XML 结构。 为 了 支持 
长 期 异步 交互 ，SOAP 头 部 能 提供 返回 地 址 和 它们 自己 以 及 相关 消息 的 消息 标识 符 。 

WS- ReliableMessage， 可 靠 通信 SOAP 常用 的 HTTP 协议 运行 在 TCP 之 上 , 在 4.2.4 节 中 已 讨论 
T TCP 的 故障 模型 。 总 结 如 下 : TCP 不 能 保证 在 所 有 情况 下 都 能 正确 传送 消息 。 如 果 TCP 等 待 确认 消 
息 超时 ， 它 就 会 声明 连接 已 经 中 汤 ， 这 时 通信 进程 不 知道 最 近 发 送 的 消息 是 否 被 接收 。 

在 提供 SOAP 消息 的 有 保证 传送 、 无 重复 、 保 证 消息 顺序 的 可 靠 通 信 方 面 的 工作 形成 了 Ferris 和 
Langworthy[ 2004] 以 及 Evans 等 [2003] 提出 的 两 种 相互 竞争 的 规范 。 

AUT, Oasis (一 个 全 球 性 联盟 ， 致 力 于 开发 、 协 商 和 采用 电子 商务 和 Web 服务 标准 ) 给 出 了 一 个 
称 为 WS-ReliableMessaging[ www. oasis. org] 的 推荐 标准 。 它 允许 一 个 SOAP 消息 按 至 少 一 次 、 至 多 一 次 
或 正好 一 次 传递 ， 相 关 的 语义 如 下 : 

至 少 一 次 〈at-least-once) : 消息 被 至 少 传递 一 次 ， 但 如 果 不 能 被 传递 ， 将 报告 出 错 。 

至 多 一 次 (at-most-once) : 消息 被 至 多 传递 一 次 ， 但 如 果 不 能 被 传递 ， 没 有 出 错 报告 。 

正好 一 次 〈exactly-once) : 消息 被 正好 传递 一 次 ， 但 如 果 不 能 被 传递 ， 将 报告 出 错 。 

Ws- ReliableMessaging 也 提供 消息 的 排序 ， 消 息 的 排序 可 以 与 上 面 的 任何 一 个 相 结合 : 

t (in-order); 消息 可 以 按照 它们 被 特定 发 送 方 发 送 的 顺序 传递 到 目的 地 。 

YER, WS-ReliableMessaging 关心 单个 消息 的 传递 ， 不 要 与 5. 3. 1 节 描 述 的 RPC 调用 语义 相 混淆 ， 
后 者 是 指 服务 器 执行 远程 过 程 的 次 数 。 读 者 可 通过 习题 9 16 做 进一步 的 比较 。 

穿越 防火 墙 Web 服务 可 被 一 个 组 织 中 的 客户 用 于 通过 互联 网 访问 另 一 个 组 织 中 的 服务 器 。 大 多 
数组 织 使 用 防火 墙 来 保护 它们 网 络 上 的 资源 ，Java RMI 或 CORBA 使 用 的 传输 协议 通常 不 能 够 穿越 防火 
墙 。 然 而 ， 防 火 墙 通常 允许 HTTP 和 SMTP 消息 通过 。 因 此 ， 使 用 这 两 个 协议 之 一 来 传输 SOAP 消息 是 
非常 方便 的 。 


9.2.2 Web 服务 与 分 布 式 对 象 模型 的 比较 


Web 服务 具有 一 个 服务 接口 ， 该 接口 可 提供 操作 来 访问 和 更 新 其 管理 的 数据 资源 。 从 表面 上 看 ， 
客户 和 服务 器 之 间 的 交互 十 分 类 似 于 RMI， 在 RM 中 客户 使 用 远程 对 象 引 用 来 调用 远程 对 象 中 的 操 
作 。 对 于 Web 服务 ， 客 户 使 用 URI 来 调用 该 URI 标识 的 资源 中 的 操作 。 有 关 Web 服务 和 分 布 式 对 象 
之 间 的 相似 点 和 区 别 的 讨论 ， 参 见 Birman[ 2004], Vinoski[2002] 和 Vogels[ 2003 ] 。 

通过 5.5 节 Java RMI 和 8.3 节 CORBA 中 使 用 的 共享 白板 的 例子 ， 我 们 试图 给 出 上 面 分 析 的 局 限 性 。 
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远程 对 象 引 用 与 URI Web 服务 的 URI 的 作用 与 单个 对 象 的 远程 对 象 引 用 的 作用 看 似 相似 。 然 
而 ， 在 分 布 式 对 象 模型 中 ， 对 象 可 以 动态 创建 远程 对 象 并 返回 其 远程 引用 。 接 收 者 可 以 使 用 这 些 远 程 
引用 调用 所 引用 的 对 象 中 的 操作 。 在 共享 白板 的 例子 中 ， 对 newShape 工厂 方法 的 调用 创建 了 Shape 对 
象 的 一 个 新 实例 ， 并 返回 对 实例 的 远程 引用 。Web 服务 不 能 完成 类 似 的 工作 ，Web 服务 不 能 创建 远程 
对 象 的 实例 。 实 际 上 ， 一 个 Web 服务 由 一 个 远程 对 象 组 成 ， 因 此 ， 与 垃圾 回收 和 远程 对 象 引 用 无 关 。 
Web 服务 模型 ”考虑 到 不 是 使 用 透明 的 Java 到 Java 的 远程 调用 ， 而 是 使 用 Web 服务 模型 ， 在 该 
模型 中 远程 对 象 不 能 实例 化 ， 因 此 Java Web 服务 工具 包 (JAX-RPC)[ java. sun. com VII] 的 用 户 必须 为 
Web 服务 程序 建 模 使 其 满足 这 个 限制 。JAX- RPC 考虑 到 这 一 点 ， 它 不 允许 将 远程 对 象 引 用 作为 参数 传 
递 或 作为 结果 返回 。 
图 9-7 给 出 了 图 5-16 中 接口 的 另 一 个 版 本 ， 如 下 修改 该 接口 使 其 成 为 Web 服务 接口 : 
。 在 程序 (分布 式 对 象 ) 的 初始 版 本 中 ， 在 服务 器 中 创建 Shape 的 实例 ， 并 由 newShape 返回 对 
这 些 实例 的 远程 引用 ，newShape 的 (Web ARS) 改进 版 本 如 行 1 所 示 。 为 避免 远程 对 象 的 实 
例 化 以 及 相应 的 对 远程 对 象 的 使 用 ， 删 除了 Shape 接口 并 将 其 操作 (getAllState 和 getGOVer- 
最 初 的 getVersion) 添加 到 ShapeList 接口 中 。 
。 在 程序 (分 布 式 对 象 ) 的 初始 版 本 中 ， 服 务 器 存储 了 Shape 的 一 个 向 量 。 现 在 将 其 更 改 为 
GraphicalObject 的 一 个 向 量 。 方 法 newShape HY (Web ARS) 新 版 本 返回 一 个 整数 ， 它 表示 该 向 
量 中 GraphicalObject 的 偏 移 量 。 





sion 





import java.rmi.*; 
public interface ShapeList extends Remote { 
int newShape(GraphicalObject g) throws RemoteException; l 
int numberOfShapes()throws RemoteException; 
int getVersion() throws RemoteException; 
int getGOVersion(int ijthrows RemoteException; 
GraphicalObject getAllState(int i) throws RemoteException; 











图 9-7 Java Web 服务 接口 ShapeList 


修改 方法 newShape 意味 着 它 不 再 是 工厂 方法 ， 也 就 是 说 ， 该 方法 不 再 创建 远程 对 象 的 实例 。 

伺服 器 “在 分 布 式 对 象 模型 中 ， 服 务 器 程序 通常 被 建 模 化 为 伺服 器 的 集合 (潜在 的 远程 对 象 ) 。 
例如 ， 共 享 白 板 应 用 程序 对 形状 列表 使 用 一 个 伺服 器 ， 并 为 创建 的 每 个 图 形 对 象 使 用 一 个 伺服 器 。 将 
这 些 伺服 器 分 别 创 建 为 何 服 器 类 ShapeList 和 Shape 的 实例 。 服 务 器 启动 时 ， 其 main 函数 创建 ShapeList 
的 实例 ; 每 当 客户 调用 newShape 方法 时 ， 服 务 器 创建 Shape 的 一 个 实例 。 

相反 ，Web 服务 不 支持 伺服 器 。 因 此 ， 在 需要 处 理 不 同 的 服务 器 资源 时 ， 有 eb 服务 应 用 程序 不 能 
创建 伺服 器 。 为 实施 这 一 点 ，Web 服务 接口 的 实现 既 没 有 构造 函数 也 没有 main 方法 。 


9.2.3 在 Java 中 使 用 SOAP 


用 于 开发 SOAP 上 的 Web 服务 和 客户 端的 Java API 称 为 JAX- RPC， 在 Java Web 服务 教程 [ja- 
va. sun. com VII] 中 介绍 了 JAX-RPC。 该 API 对 客户 和 服务 的 编程 人 员 隐 藏 了 SOAP 的 所 有 细节 。 

JAX-RPC 将 Java 语言 中 的 某 些 类 型 映射 到 SOAP 消息 和 服务 描述 使 用 的 XML 中 的 定义 上 。 人 允许 使 
用 的 类 型 包括 Integer, String, Date 和 Calendar 以 及 java. net. uri， 它 允许 将 URI 作为 参数 传递 或 作为 结 
果 返 回 。JAX-RPC 不 仅 支 持 语言 的 简单 类 型 和 数组 ， 还 支持 某 些 集合 类 型 (包括 Vector), 

另外 ， 某 些 类 的 实例 可 以 作为 参数 传递 ， 也 可 以 作为 远程 调用 的 结果 传递 ， 前 提 是 : 

。 每 个 实例 变量 都 是 上 述 所 允许 的 类 型 之 一 。 

。 都 拥有 公共 的 默认 构造 函数 。 

e 没有 实现 Remote 接口 。 
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一 般 来 说 ， 如 前 一 节 提 到 的 ， 远 程 引 用 〈 即 实现 了 Remote RO) 的 类 型 的 值 不 能 作为 参数 传递 或 
作为 远程 调用 的 结果 返回 。 

服务 接口 Web 服务 的 Java 接口 必须 遵循 以 下 规则 ， 其 中 某 些 规则 在 图 9-7 中 给 出 了 示范 说 明 : 

e 必须 扩展 Remote 接口 。 

。 必须 不 含 常量 声明 ， BION, public final static, 

© 方法 必须 抛 出 java. rmi. RemoteException 或 其 子 类 异常 。 

© 方法 参数 和 返回 类 型 必须 符合 JAX-RPC 类 型 。 

服务 器 程序 ”实现 ShapeList 接口 的 类 如 图 9-8 所 示 。 如 上 所 述 ， 该 类 不 含 main 方法 ，ShapeList 接 
口 的 实现 也 不 包含 构造 画 数 。 实 际 上 ，Web 服务 是 提供 一 组 过 程 的 单个 对 象 。 图 9-7、 图 9-8 和 图 9-9 
中 的 源 程 序 可 以 从 本 书 的 网 站 www. edk5. net/web 上 获得 。 


import java.util. Vector; 

public class ShapeListlmpl implements ShapeList { 
private Vector theList = new Vector(); 
private int version = 0; 
private Vector the Versions = new Vector(); 





public int newShape(GraphicalObyect g) throwsRemote Exception{ 
version+ +; 
the List.addElemeni(g); 
theVersions.addElement(new Integer(version)); 
return theList.size(); 
} 
public int numberOfShapes() {} 
public int getVersion) Q 
public int getGOVersion(int i) { } 
public GraphicalObject getAllState(int i) Q 











图 9-8 ShapeList 服务 器 的 Java 实现 





package staticstub; 
import javax.xml.rpc. Stub; 
public class ShapeListClient { 
public static void main(String[] args) { /* pass URL of service */ 


try { 
Stub proxy = createProxy(); 1 
proxy._setProperty 2 
(javax.xml.rpe.Stub,ENDPOINT_ADDRESS PROPERTY, args[0]); 
ShapeList aShapeList = (ShapeList)proxy; 3 
GraphicalObject g = aShapeList.getAllState(0); 4 
} catch (Exception ex) { ex.printStackTrace(), } 
} ， 
private static Stub createProxy() { 5 
return 
(Stub) (new MyShapeListService_Impl().getShapeListPort()); 6 
} 











图 9-9 ShapeList 客户 端的 Java 实现 


服务 的 接口 和 实现 按 通常 方式 编译 。 可 以 使 用 两 个 工具 wscompile 和 wsdepioy 生成 骨架 类 和 WSDL 
(其 描述 见 第 9. 3 节 ) 格式 的 服务 描述 ,这 将 用 到 与 服务 的 URL 有 关 的 信息 、XML 格式 的 配置 文件 中 
的 服务 名 称 和 描述 。 服 务 的 名 称 (在 该 例 中 为 MyShapeListService) 用 于 生成 客户 程序 访问 该 服务 时 使 
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用 的 类 的 名 称 ， 即 MyShapeListService_Impl。 

Servlet 容器 ”服务 实现 作为 servlet 运行 在 Servlet FB, Servlet 容器 的 作用 是 加 载 、 初 始 化 并 执 
行 servlet。 它 包括 分 发 器 和 骨架 ( 见 5. 4.2 节 ) 。 当 请 求 到 达 时 ， 分 发 器 将 该 请 求 映射 到 某 个 骨架 ， 该 
上 骨架 将 请 求 转换 为 Java 格式 并 传送 给 servlet 中 的 适当 方法 ， 由 该 方法 执行 请 求 并 生成 应 答 ， 然 后 骨架 
再 将 该 应 答 转换 为 SOAP 应 答 。 服 务 的 URL 由 servlet 容器 的 URL 以 及 服务 类 别 和 名 称 连 接 而 成 ， 如 
http://localhost: 8080/ShapeList- jaxrpc/ShapeList . 

Tomeat[ jakarta. apache. org] 是 一 个 常用 的 servlet 容器 。 运 行 Tomcat 时 ， 可 以 使 用 浏览 器 输入 一 个 
URL 来 查看 其 管理 界面 。 该 界面 显示 了 当前 部 署 的 servlet 的 名 称 ， 并 提供 了 一 系列 操作 来 管理 这 些 
servlet ， 以 及 获取 每 个 servlet 的 包括 服务 描述 在 内 的 相关 信息 。 一 旦 在 Tomcat 中 部 署 了 某 个 servlet ， 客 
户 就 可 以 访问 该 servlet， 其 操作 的 组 合 效果 将 存储 在 servlet 的 实例 变量 中 。 在 我 们 的 例子 中 生成 了 
GraphicalObjects 的 一 个 列表 ， 在 客户 请 求 newShape 操作 后 ， 将 每 个 GraphicalObjects 作为 客户 请 求 new- 
Shape 的 结果 添加 入 该 列表 。 如 果 通 过 Tomcat 管理 界面 停止 某 个 servlet， 那 么 在 重启 该 servlet 时 实例 变 
量 的 值 将 被 重 置 。 

Tomcat 还 提供 对 其 包含 的 每 个 服务 的 服务 描述 的 访问 ， 这 使 得 编程 人 员 能 够 设计 客户 程序 ， 并 使 
客户 代码 请 求 的 代理 的 自动 编译 更 加 方便 。 由 于 服务 描述 是 用 XML (更 特别 的 ， 在 9.3 节 介 绍 的 WS- 
DL) 表述 的 ， 因 此 是 人 可 读 的 。 

客户 程序 ”客户 程序 可 以 使 用 静态 代理 、 动 态 代 理 或 动态 调用 接口 。 在 各 种 情况 下 ， 都 可 以 从 相 
关 的 服务 描述 中 获得 客户 代码 所 需 的 信息 。 在 我 们 的 例子 中 ， 服 务 描述 可 以 从 Tomcat 中 获得 。 

静态 代理 ;图 9-9 显示 了 ShapeList 客户 通过 代理 发 起 调用 。 (代理 是 将 消息 发 送 到 远程 服务 的 本 
地 对 象 。) 代理 的 代码 由 wscompile 从 服务 描述 中 生成 。 代 理 的 类 名 是 在 服务 的 名 称 后 添加 “_Impl” 得 
到 的 。 在 本 例 中 ， 代 理 类 称 为 MyShapeListService_Impl。 该 名 称 是 特定 于 实现 的 ， 因 为 SOAP 规范 中 并 
没有 给 出 代理 类 的 命名 规则 。 

在 程序 的 第 1 行 ， 调 用 creatProxy 方法 。 该 方法 如 第 5 行 所 示 ， 在 第 6 行 它 使 用 MyShapeListService 
Imp 创建 了 一 个 代理 ， 然 后 返回 了 该 代理 (注意 ， 由 于 代理 有 时 被 称 为 存根 ， 所 以 出 现 Stub 作为 类 
的 和 名称 ) 。 在 第 2 行 ， 通 过 命令 行 给 出 的 参数 将 服务 的 URL 提供 给 代理 。 在 第 3 行 ， 将 proxy 的 类 型 强 
制 转换 为 ShapeList 接口 的 类 型 。 第 4 行 调 用 了 远程 过 程 getAllState， 请 求 服务 返回 GraphicalObjects 向 
量 中 第 0 个 元 素 的 对 象 。 

由 于 代理 是 在 编译 时 创建 的 ， 因 此 这 种 代理 称 为 静态 代理 。 从 中 生成 的 服务 的 服务 描述 不 一 定 是 
从 Java 接口 中 生成 的 ， 它 可 以 由 各 种 不 同 语言 系统 的 相关 工具 生成 ， 甚 至 可 以 直接 用 XML 写成。 

动态 代理 ; 除了 可 以 使 用 预 编译 的 静态 代理 外 ， 客 户 也 可 以 使 用 动态 代理 。 动 态 代理 的 类 是 在 运 
行 时 从 服务 描述 和 服务 接口 的 信息 中 生成 的 。 这 种 方法 避免 了 代理 类 使 用 特定 于 实现 的 名 称 的 问题 。 

动态 调用 接口 ; 该 接口 允许 客户 调用 远程 过 程 ， 即 使 服务 的 基调 或 服务 的 名 称 在 运行 前 是 未 知 的 。 
与 以 上 方法 不 同 的 是 ， 客 户 不 需要 代理 ， 但 必须 在 发 起 过 程 调 用 前 使 用 一 系列 操作 来 设置 服务 如 操作 
的 名 称 、 返 回 值 以 及 每 个 参数 。 

Java SOAP 的 实现 Java API 的 实现 方式 可 以 用 图 5-15 来 前述 。 以 下 各 段 说 明了 Java/SOAP 环境 
中 各 个 组 件 的 作用 一 一 组 件 之 间 的 相互 作用 跟 以 前 一 样 。 不 存在 远程 引用 模块 。 

通信 模块 ; 通信 模块 的 任务 由 一 对 HTTP 模块 实现 。 服 务 器 中 的 HTTP 模块 根据 action 头 部 中 的 
URL 为 POST 请 求 选 择 合适 的 分 发 器 。 

客户 代理 : 代理 (或 存根 ) 方法 知道 服务 的 URL， 并 将 其 方法 的 名 称 和 参数 与 对 该 服务 的 XML 
模式 的 引用 一 起 编码 到 SOAP 请 求 信封 中 。 对 应 答 的 解码 包括 分 析 SOAP 信封 来 抽取 结果 、 返 回 值 或 故 
障 报告 。 将 客户 的 请 求 方法 调用 作为 HTTP 请求 发 送 到 服务 。 

PRB FoF RR. 如 上 所 述 ,分 发 器 和 骨架 存在 于 servlet 容器 中 。 分 发 器 从 HTTP 请 求 的 action 头 部 
抽取 操作 的 名 称 ， 然 后 调用 合适 的 骨架 中 的 相应 方法 ， 并 将 SOAP 信封 传递 给 该 方法 。 

骨架 方法 执行 以 下 任务 : 分 析 请 求 消息 中 的 SOAP 信封 ， 然 后 抽取 其 参数 ， 调 用 相应 的 方法 ， 生 
成 包含 结果 的 SOAP 应 答 信封 。 
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SOAP/XML 中 的 错误 、 故 障 和 正确 性 : HTTP 模块 、 分 发 库 、 骨 架 或 服务 自身 都 可 以 报告 故障 。 
服务 可 以 通过 返回 值 或 利用 服务 描述 中 指定 的 故障 参数 报告 其 错误 。 骨 架 负 责 检查 SOAP 信封 包含 的 
请 求 以 及 XML (SOAP 信封 用 良 构 的 XML 写成 ) WA XML 的 有 效 性 后 ， 骨 架 将 使 用 信封 中 的 XML 
名 字 空 间 检查 请 求 是 否 与 提供 的 服务 对 应 以 及 操作 和 其 参数 是 否 适合 。 如 果 请 求 验证 在 上 述 阶段 中 的 
任 一 阶段 失败 ， 则 向 客户 返回 错误 。 在 接收 到 包含 结果 的 SOAP 信封 时 ， 代 理 也 进行 类 似 的 检查 。 


9.2.4 Web 服务 和 CORBA 的 比较 


Web 服务 和 CORBA 或 其 他 类 似 的 中 间 件 的 主要 区 别 是 使 用 它们 的 上 下 文 不 同 。CORBA 用 于 单个 
组 织 或 很 少 的 几 个 协作 组 织 。 这 导致 设计 的 某 些 方面 过 于 集中 ， 不 适合 独立 组 织 之 间 的 协作 或 在 没有 
预先 安排 时 的 自主 使 用 ， 下 面 我 们 将 解释 这 个 问题 。 

名 字 问 题 在 CORBA, 通过 CORBA 名 字 服 务 ( 见 8.3.5 节 ) 实例 的 管理 的 名 称 来 引用 每 个 远 
程 对 象 。 这 种 类 似 DNS 的 服务 提供 名 称 到 表示 地 址 的 值 (CORBA 中 为 I OR) 之 间 的 映射 。 但 与 DNS 
不 同 的 是 ，CORBA 名 字 服 务 旨 在 用 于 一 个 组 织 而 不 是 整个 互联 网 。 

在 CORBA 名 字 服 务 中 ， 每 个 服务 器 管理 一 个 具有 初始 的 名 字 上 下 文 的 名 称 图 ， 该 服务 器 最 初 独 
立 于 其 他 服务 器 。 尽 管 各 个 组 织 可 能 联合 他 们 的 名 字 服 务 ， 但 这 不 能 自动 完成 。 在 一 个 服务 器 与 男 一 
个 服务 器 联合 之 前 ， 需 要 知道 后 者 的 初始 名 字 上 下 文 。 因 此 ，CORBA 名 字 服 务 的 设计 将 CORBA Xt 22 
的 共享 有 效 地 限制 到 已 经 联合 名 字 服 务 的 几 个 组 织 中 。 

引用 问题 现在 考虑 CORBA 远程 对 象 引 用 ( 称 之 为 IOR， 见 8.3.2 节 ) 是 否 可 以 以 类 似 URL 的 
Fee AA 每 个 IOR 包含 一 个 槽 ， 指 定 其 引用 的 对 象 的 接口 的 类 型 标识 符 。 

过 ， 只 有 存储 相应 类 型 定义 的 接口 库 才 能 理解 这 个 类 型 标识 符 。 这 意味 着 客户 和 服务 器 需要 使 用 相 
teu 这 在 全 球 范围 应 用 中 实际 上 并 不 可 行 。 

相反 ， 在 Web 服务 模型 中 ， 服 务 由 URL 标识 ， 这 使 得 处 于 互联 网 上 任何 位 置 的 客户 都 可 以 请 求 位 
于 互联 网 其 他 位 置 上 的 组 织 中 的 服务 。 也 就 是 说 ， 客 户 可 以 通过 互联 网 共享 Web 服务 。URL 访问 唯一 
需要 的 服务 就 是 DNS， 而 DNS 可 以 在 互联 网 范围 内 有 效 地 工作 。 

激活 和 定位 的 分 离 ” 定 位 和 激活 Web 服务 的 任务 被 巧妙 地 分 离开 来 。 相 反 ，CORBA 持久 引用 指 
的 是 平台 〈 实 现 仓库 ) 的 一 个 组 件 ， 在 任何 合适 的 计算 机 上 按 需 激活 相应 的 对 象 ， 一 旦 激活 对 象 ， 它 
还 将 负责 定位 对 象 。 

易 用 性 虽然 用 户 需 要 一 种 方便 的 编程 语言 API 用 于 SOAP 通信 ,但 Web 服务 的 HTTP 和 XML 基 
础 设施 易于 理解 和 使 用 ， 并 且 已 经 安装 在 所 有 最 常用 的 操作 系统 上 。 相 反 ，CORBA 平台 需要 安装 和 支 
持 庞大 复杂 的 软件 。 

效率 ”CORBA 的 实现 是 比较 高 效 的 : CORBA CDR (4.3.1 节 ) 是 二 进 制 的 ， 而 XML 是 文本 方式 
#4, Olson 和 Ogbuji[2002] 的 一 项 研究 比较 了 CORBA, SOAP 和 XML- RPC 的 性 能 。 他 们 发 现 ，SOAP 
请 求 消息 的 大 小 是 CORBA 中 等 价 消息 的 14 倍 ，SOAP 请 求 耗费 的 时 间 平 均 是 CORBA 调用 的 882 倍 。 
虽然 相关 的 性 能 依赖 所 使 用 的 语言 和 所 采用 的 特定 的 中 间 件 实现 ， 这 个 例子 还 是 显示 了 基于 XML 方法 
可 能 的 开销 。 但 在 许多 应 用 中 ，SOAP 的 消息 开销 和 较 低 的 性 能 并 不 易 觉 察 ， 由 于 廉价 的 带宽 、 处 理 
器 、 内 存 和 磁盘 空间 越 来 越 普及 ，SOAP 的 低 效 变 得 更 不 明显 了 。 

W3C 等 组 织 一 直 在 研究 允许 XML 元 素 包 括 二 进 制 数据 以 提高 效率 的 可 行 ; 性 。 有 关 该 主题 的 讨论 
请 参见 (www. w3. org XXI] 和 [www. w3. org XXI] 。 请 注意 ，XML 已 经 提供 了 二 进 制 数据 的 十 六 进 制 
和 base64 表示 。base64 表示 与 XML 加 密 联合 使 用 ( 兄 9.5 节 ) 。 将 二 进 制 数据 转换 为 base64 或 十 六 进 
制 数据 的 时 间 和 空间 开销 相当 大 。 因 此 ， 真 正 需要 的 是 能 够 包括 数据 项 〈 如 CORBA CDR 或 gzip 生成 
的 ) 的 预 解 析 顺 序 的 二 进 制 表示 。 另 一 个 正在 研究 的 方法 是 用 一 个 SOAP 消息 (包含 附件 ， 其 中 茶 些 
附件 可 能 是 二 进 制 的 ) ， 并 使 用 复合 MIME 文本 传输 它 。 

CORBA 的 优势 CORBA 服务 在 事务 、 并 发 控制 、 安 全 和 访问 控制 、 事件 和 持久 对 象 方面 的 优势 
使 其 成 为 在 单个 组 织 内 或 者 相关 的 几 个 组 织 内 使 用 的 许多 应 用 程序 中 的 合适 选择 。 通 常 ，CORBA 非常 
适合 具有 复杂 交互 的 应 用 。 另 外 ， 分 布 式 对 象 模型 对 设计 复杂 应 用 很 有 吸引 力 ， 因 此 值得 花费 一 些 精力 
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去 理解 CORBA 对 象 模型 (8.3 节 ) 和 使 用 的 特定 编程 语言 之 间 的 关系 。 


9.3 Web 服务 的 服务 描述 和 接口 定义 语言 


客户 与 服务 进行 通信 需要 使 用 接口 定义 。 对 于 Web 服务， 接口 定义 是 通常 的 服务 描述 (service de- 
scription) 的 一 部 分 ， 服 务 描述 还 指定 了 另外 两 个 特性 一 -消息 如 何 通信 (如 通过 HTTP 上 的 SOAP) 
以 及 服务 的 URI。 为 满足 多 语言 环境 中 的 使 用 ， 服 务 描 述 使 用 XML 编写 。 

服务 描述 构成 了 客户 和 服务 器 之 间 对 提供 的 服务 达成 共识 的 基础 ， 它 聚集 了 服务 方面 所 有 与 客户 
有 关 的 因素 。 服 务 描述 通常 用 于 生成 客户 端 存根 ， 存 根 将 自动 为 客户 实现 正确 的 行为 。 

服务 描述 的 类 似 IDL 的 组 件 比 其 他 IDL 更 为 灵活 ， 这 是 因为 服务 可 以 按照 发 送 或 接收 消息 的 类 型 
指定 ， 也 可 以 根据 所 支持 的 操作 指定 ， 从 而 允许 文档 交换 以 及 请 求 - 应 答 形式 的 交互 。 

Web 服务 及 其 客户 可 以 使 用 很 多 不 同方 法 进行 通信 ， 因 此 通信 方法 由 服务 提供 者 决定 并 在 服务 描 
述 中 说 明 ， 而 不 是 像 CORBA 一 样 将 其 构建 进 系统 。 

将 服务 的 URI 写 人 服务 描述 可 以 避免 使 用 大 部 分 其 他 中 间 件 使 用 的 单独 的 绑 定 器 或 名 字 服 务 。 这 
意味 着 一 旦 服务 描述 对 潜在 的 客户 公开 ， 将 不 能 更 改 其 URI。 但 URN 模式 通过 引用 层 上 的 间接 性 从 而 
允许 位 置 的 变化 。 

相反 ， 在 绑 定 器 方法 中 ， 客 户 在 运行 时 使 用 名 称 来 查找 服务 引用 ， 因 而 允许 随时 更 改 服务 引用 。 
但 是 这 种 方法 需要 在 所 有 服务 的 名 称 和 服务 引用 之 间 存 在 一 个 间接 层 ， 即 使 许多 服务 依旧 在 相同 位 置 
也 是 如 此 。 

在 Web 服务 环境 中 ，Web 服务 描述 语言 (WSDL) 通常 用 于 服务 描述 。 当 前 的 版 本 是 WSDL 2.0 
[www. w3. org XI] ， 它 在 2007 年 成 为 W3C 推荐 版 本 。 它 定义 了 表示 服务 描述 组 件 的 XML 模式 ， 包 括 
诸如 名 为 definition、type、message interface, binding 和 service 的 元 素 。 

WSDL 将 服务 描述 的 抽象 部 分 与 具体 部 分 分 开 ， 如 图 9-10 所 示 。 


定义 
types message interface bindings services 
目标 名 字 空 间 文档 样式 请求- 应答 样 式 “如何 哪里 





抽象 
图 9-10 WSDL 描述 中 的 主要 元 素 


描述 的 抽象 部 分 包括 服务 使 用 的 一 组 类 型 的 定义 ， 特 别 是 消息 中 交换 的 值 的 类 型 。9. 2. 3 节 中 的 
Java 示例 的 接口 如 图 9-7 所 示 ， 它 使 用 了 Java 类 型 nt 和 GraphicalObject。 前 者 〈 跟 其 他 基本 类 型 一 样 ) 
可 以 直接 转换 成 XML 中 相应 的 类 型 ， 但 GraphicalObject 是 用 Java 类 型 int、 String 和 boolean 定义 的 。 为 
满足 异 构 的 客户 使 用 ，GraphicalObject 用 XML 表示 为 一 个 复杂 类 型 ， 该 类 型 由 一 组 已 命名 的 XML 类 型 
的 序列 组 成 ,. 例如 包括 : 


<element name="isFilled' type="boolean"/> 





— Me 一 


< element name="originx" type="int"/> 

WSDL 定义 中 的 type 项 内 定义 的 名 称 集 称 为 它 的 目标 名 字 空 间 。 抽 象 部 分 的 message 项 包含 对 所 交 
换 的 消息 集 的 描述 。 对 于 文档 样式 的 交互 来 说 ， 这 些 消息 将 直接 被 使 用 。 对 于 请 求 - 应 答 样式 的 交互 
来 说 ， 每 个 操作 有 两 条 消息 ， 用 于 描述 interface 项 中 的 操作 。 具 体 部 分 指定 了 如 何 联系 服务 以 及 在 哪 
里 联系 服务 。 

WSDL 定义 的 固有 的 模块 性 允许 其 组 件 以 不 同 的 方式 组 合 在 一 起 例如， 相同 的 接口 可 以 与 不 同 
的 绑 定 或 位 置 一 起 使 用 。 类 型 可 以 在 type 元 素 内 定义 ,也 可 以 在 type 元素 中 的 URI 引用 的 单独 文档 中 
定义 。 在 后 面 这 种 情况 ， 类 型 定义 可 以 从 几 个 不 同 的 WSDL 文档 引用 。 

消息 或 操作 ”在 Web 服务 中 ， 客 户 和 服务 器 所 需要 的 是 对 要 交换 的 信息 达成 共识 。 若 服务 只 涉及 
很 少儿 个 不 同类 型 的 文档 的 交换 ， 则 WSDL 只 需 描 述 要 交换 的 不 同 消息 的 类 型 。 当 客户 发 送 这 些 消 息 
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之 一 到 Web 服务 时 ，Web 服务 基于 其 收 到 的 消息 的 类 型 决定 执行 何 种 操作 以 及 给 客户 返回 何 种 类 型 的 
信息 。 在 我 们 给 出 的 Java 例子 中 ， 为 接口 中 的 每 个 操作 定义 两 条 消息 一 一 一 条 用 于 请 求 ， 一 条 用 于 应 
答 。 例 如 ， 图 9-11 给 出 了 操作 newShape 的 请 求 和 应 答 消息 ， 该 操作 具有 一 个 类 型 为 GraphicalObject 的 
输入 参数 和 类 型 为 int 的 输出 参数 。 


message name = " ShapeList_newShape" message name= " ShapeList_newShapeResponse" 
tname="GraphicalObject 1” riname= " result" 
st sil: me type= " xsd:int" 


~ type = “ ns:GraphicalObject". 


tns; 目标 命名 空间 xsd: XML 模式 定义 
图 9-11 newShape 操作 的 WDSL 请 求 和 应 答 消 息 


但 对 于 支持 多 个 不 同 操作 的 服务 ， 将 交换 的 消息 指定 为 对 带 参 数 的 操作 的 请 求 以 及 相应 的 应 答 ， 
允许 服务 将 每 个 请 求 分 派 到 合适 的 操作 ， 这 种 方法 效率 更 高 。 然 而 ,在 WSDL 中 ， 操 作 由 相关 的 请 求 
和 应 答 消息 构造 ， 而 不 是 服务 接口 中 操作 的 定义 。 

接口 属于 同一 个 Web 服务 的 操作 集合 组 成 一 组 ， 放 在 名 为 interface (有 时 称 为 portType) 的 
XML 元 素 中 。 每 个 操作 必须 指定 客户 和 服务 器 之 间 消 息 交 换 的 模式 。 可 选 的 模式 如 图 9-12 所 示 。 第 一 
个 模式 In- Out 是 客户 -服务 器 通信 常用 的 请 求 - 应 答 形式 。 在 这 种 模式 中 ， 应 答 消息 可 以 用 故障 消息 
代替 。In- Only 用 于 带 有 或 许 (maybe) 语义 的 单 向 消息 ，Out- Only 用 于 从 服务 器 到 客户 的 单 向 消息 ， 
这 两 种 模式 都 不 能 发 送 故障 消息 。Robust In- Only 和 Robust Out- Only 是 相应 的 有 传递 保证 的 消息 ， 这 时 
可 以 交换 故障 消息 。Out-In 是 由 服务 器 发 起 的 请 求 - 应 答 交 互 。WSDL 2. 0 也 是 可 扩展 的 ， 因 为 组 织 能 
引信 它 们 自己 的 消息 交换 模式 ， 如 果 预 定义 模式 不 够 用 的 话 。 























消息 发 送 者 
名 R 传递 故障 消息 
客户 服务 器 
In-Out 请 求 EF 可 以 代替 应 答 
In-Only 请 求 没有 故障 消息 
Robust In-Only 请 求 有 保证 的 可 以 发 送 
Out-In 应 答 请 求 可 以 代替 应 答 
Out-Only 请 求 没有 故障 消息 
Robust Out-Only 请 求 有 保证 的 可 以 发 送 故障 








9-12 WSDL 操作 的 消息 交换 模式 


回 到 上 面 那个 Java 的 例子 ， 每 个 操作 定义 为 m- Out 模式 。 操 作 newShape 如 图 9-13 所 示 ， 该 操作 
使 用 图 9-11 定义 的 消息 。 这 个 定义 与 其 他 四 个 操作 的 定义 都 放 在 XML 的 interface 元 素 中 。 操 作 也 可 以 
指定 可 以 发 送 的 故障 消息 。 


operation name = " newShape " 


但 是 ， 如 果 一 个 操作 有 两 个 参数 ， PT pattern = In-Out 

Hecate Pipi AB | input message = " tns:ShapeList_newShape " 

必要 定义 型 ， 这 些 有 

已 经 定义 为 XML 模式 了 。 然 而 ， 这 样 就 需 : output message ="ms:ShapeList_newShapeResponse” 

要 定义 包含 这 两 个 部 分 的 消息 。 该 消息 可 ts: 目标 命名 空间 xsd: XML 模式 定义 

以 用 作 操 作 定义 中 的 输入 或 输出 。 在 WSDL 的 XML 模式 中 定义 了 和 名字 operation、patterm、input 和 output。 
继承 : 任何 WSDL 接口 都 可 以 扩展 一 个 图 9-13 WSDL 操作 newShape 


或 多 个 其 他 WSDL 接口 。 这 是 继承 的 一 种 简 
单 形式 ， 这里， 接口 除了 支持 自身 定义 的 操作 外 ， 还 支持 其 扩展 的 所 有 接口 的 操作 。 接 口 不 允许 递归 定 
义 ， 即 如 果 接口 B 扩展 了 接口 4， 则 接口 A 不 能 再 扩展 接口 B。 

具体 部 分 WSDL 的 其 余部 分 (具体 部 分 ) 由 binding (协议 的 选择 ) 和 service (端点 或 服务 器 地 
址 的 选择 ) 组 成 。 这 两 者 是 相关 联 的 ， 因 为 地 址 的 形式 取决 于 使 用 的 协议 类 型 。 例 如 ，SOAP 端点 使 
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用 URI， 而 CORBA 端点 使 用 特定 于 CORBA 的 对 象 标识 符 。 

RE: WSDL 文档 中 的 binding 项 表示 要 使 用 何 种 消息 格式 和 外 部 数据 表示 形式 。 例 如 ，Web 服务 
频繁 使 用 SOAP, HTTP 和 MIME。 绪 定 可 以 与 特定 操作 或 接口 相关 联 ， 也 可 以 不 设置 从 而 使 用 许多 不 
同 的 Web 服务 。 

图 9-14 给 出 了 髓 套 一 个 soap: binding 的 binding, soap; binding 指定 了 传输 SOAP 信封 的 特定 协议 
的 URL: SOAP 的 HTTP 绑 定 。 还 可 以 指定 如 下 该 元 素 可 选 的 属性 ， 

。 消息 交换 的 模式 ， 可 以 是 rpe (请 求 - 应答 ) 或 document 交换 模式 。 默 认 值 为 document 模式 。 

。 消息 格式 的 XML 模式 。 软 认 值 为 SOAP envelope, 

© 外 部 数据 表示 的 XML 模式 。 默 认 值 为 XML 的 SOAP 编码 。 


binding service 
name = "ShapeListBinding" name = "MyShapeListService” 
type = "tms:ShapeList” 
soap: binding transport = URI _ endpoint 
for schemas for soap/http name = “ShapeListPort 
style = “rpc” binding = "tns:ShapeListBinding” 
operation soap:address 
name = "newShape” ‘ location = service URI 
input 
soap: body 
encoding, namespace 
-一 一 一 服务 的 URI 为 : 
soap: ™ n i ttt 二 和 
pala ze http://localhost: 8080/ShapeList-jaxrpc/ShapeList 
soap:operation — 
soapAction 


9-14 SOAP 绑 定 和 服务 定义 


图 9-14 还 显示 了 一 个 操作 newShape 的 绑 定 的 详细 信息 ， 它 指定 了 input 和 output 消息 都 应 在 SOAP 
主体 内 传输 ， 使 用 了 特定 的 编码 样式 ， 另 外 操作 还 应 作为 SOAP Action 传输 。 

服务 : WSDL 文档 中 的 每 个 service 元 素 都 指定 了 服务 的 名 称 和 一 个 或 多 个 endpoint 〈 或 端口 ) ， 通 
过 endpoint 可 以 与 服务 的 某 个 实例 联系 。 每 个 endpoint 元 素 引 用 所 使 用 的 绑 定 的 名 称 ， 在 使 用 SOAP 绑 
定 的 情况 下 ， 使 用 一 个 soap: address 元 素来 指定 服务 位 置 的 URI, 

文档 TE WSDL 文档 内 的 大 部 分 地 方 ， 可 以 将 人 与 机 器 都 可 读 的 信息 插入 documentation 元 素 中 。 
在 使 用 WSDL 自动 处 理 之 前 ， 可 以 通过 stub 编译 器 将 该 信息 删除 。 

WSDL 的 用 途 ”直接 地 或 间接 地 通过 UDDI 等 目录 服务 ， 客 户 和 服务 器 可 以 使 用 URI 访问 完整 的 
WSDL 文档 。 有 很 多 工具 可 以 通过 图 形 用 户 界面 提供 的 信息 生成 WSDL， 从 而 避免 了 用 户 涉及 WSDL 的 
复杂 细节 和 结构 。 例 如 ，Web 服务 描述 语言 的 Java 工具 包 (WSDI4J) 允许 创建 、 表 示 和 操纵 描述 服 
务 的 WSDL 文档 [ WSDLAJ. sourceforge. org], WSDL 定义 还 可 以 直接 从 用 其 他 语言 (例如 9.2.1 节 中 讨 
论 的 Java JAX-RPC) 编写 的 接口 定义 中 生成 。 


9.4 Web 服务 使 用 的 目录 服务 


客户 可 以 通过 很 多 方法 获取 服务 描述 ， 例 如 ，9. 1 节 讨 论 的 旅行 代理 服务 这 类 高 级 Web 服务 的 提 
供 者 肯定 会 制作 一 个 网 页 宣传 这 个 服务 ， 潜 在 的 客户 将 在 搜索 这 种 类 型 的 服务 时 遇 到 这 个 网 页 。 

然而 ， 任 何 计划 将 Web 服务 作为 其 应 用 基础 的 组 织 会 发 现 使 用 目录 服务 将 更 便于 客户 找到 服务 。 
这 就 是 统一 目录 和 发 现 服务 ( Universal Description, Discovery and Integration, UDDI) [ Bellwood et 
al. 2003] 的 目的 ， 它 提供 名 字 服 务 和 目录 服务 (参见 13.3 节 )。 也 就 是 说 ， 可 以 通过 名 称 〈 白 页 服 
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务 ) 或 通过 属性 (黄页 服务 ) AR WSDL 服务 描述 。 还 可 以 直接 通过 URL 访问 ， 这 大 大 方便 了 开发 使 
用 该 服务 的 客户 程序 的 开发 人 员 。 

客户 可 以 使 用 黄页 方法 来 查找 特定 类 别 的 服务 ， 如 旅行 代理 或 书 商 , 或 者 使 用 白 页 方法 根据 提供 
服务 的 组 织 来 查找 服务 。 

数据 结构 支持 UDDI 的 数据 结构 引 在 允许 上 述 所 有 访问 方式 ， 并 且 可 以 结合 任意 数量 的 用 户 可 
读 的 信息 。 数 据 以 图 9- 15 所 示 的 四 种 结构 组 织 ， 每 种 结构 都 可 以 通过 称 为 key 的 标识 符 单独 访问 
(tModel 除外 ，tModel 可 以 通过 URL 访问 ) 。 


businessEntity businessServices 
有 关 发 布 者 A 
的 可 供 人 阅 ae bindingTemplate 
读 的 信息 有 关 一 族 服 bindingTemplate 
务 的 可 供 人 bindingTemplate URL tModel 


阅读 的 信息 。 有 关 服务 接 一、 fModel 
口 的 信息 ”一 一 URL 
ft aa tModel 


键 键 服务 描述 


图 9-15 ”主要 的 UDDI 数据 结构 

businessEntity: 描述 提供 这 些 Web 服务 的 组 织 ， 给 出 其 名 称 、 地 址 和 活动 等 。 

businessServices: 存储 Web 服务 的 实例 集合 的 有 关 信息 ， 如 名 称 和 目的 描述 ， 前 面 的 旅行 代理 或 
书 商 就 是 一 个 例子 。 

bindingTemplate: 存放 Web 服务 实例 的 地 址 和 对 服务 描述 的 引用 。 

tModel: 存放 服务 描述 ， 通 常 是 WSDL 文档 ， 存 储 在 数据 库 外 并 且 通 过 URL 访问 。 

查找 ”UDDI 基 于 以 下 两 个 查询 操作 集 提 供 查找 服务 的 API; 

© get_xxx 操作 集 包 括 get_BusinessDetail get_ServiceDetail, get_bindingDetail 和 get_tModelDetail。 

这 些 操 作 根 据 给 定 的 键 检索 实体 。 
© find_xxx 操作 集 包 括 find_business、find_service find_binding 和 find_tModel。 这 些 操作 检索 与 特 
定 搜索 标准 相 匹配 的 实体 集 ， 并 给 出 名 称 、 描 述 、 键 和 URL 的 摘要 。 

因此 ， 拥 有 某 个 键 值 的 客户 可 以 使 用 get ox 操作 直接 检索 相应 实体 。 其 他 客户 可 以 通过 浏览 来 畏 
助 查找 一 一 从 一 个 较 大 的 结果 集 开 始 ， 然 后 逐渐 缩小 搜索 范围 。 例 如 ， 可 以 首先 使 用 find_business 操 
作 来 获得 包含 有 关 匹 配 提供 者 的 信息 摘要 的 列表 。 从 摘要 中 ， 用 户 可 以 通过 匹配 所 需 服务 的 类 型 ， 使 
用 find_service 操作 来 缩小 搜索 范围 。 在 这 两 种 情况 下 ， 将 会 找到 合适 的 bindingTemplate 的 键 ， 并 找到 
一 个 URL 来 检索 合适 的 服务 的 WSDL 文档 。 

另外 ，UDDI 提供 了 通知 /订阅 接口 。 通 过 该 接口 ， 客 户 可 以 在 UDDI 注册 表 中 注册 感 兴趣 的 实体 
集 ， 并 以 同步 或 异步 方式 获得 变更 通知 。 

发 布 UDDI 提供 了 一 个 接口 用 来 发 布 和 更 新 Web 服务 的 信息 。 当 一 个 数据 结构 〈 见 图 9-5) 第 一 
KERA UDDI 服务 器 上 发 布 时 ， 该 结构 获得 一 个 UR 形式 的 键 ， 例 如 uddi: cdk5. net; 213 ， 并 且 该 
服务 器 成 为 其 所 有 者 。 

注册 处 ”UDDI 服务 基于 注册 处 中 存储 的 复制 数据 。UDDI 注册 处 由 一 个 或 多 个 UDDI 服务 器 组 成 ， 
每 个 服务 器 都 有 相同 数据 集 的 副本 。 数 据 在 注册 处 的 成 员 间 复制 。 每 一 个 成 员 都 可 以 响应 查询 和 发 布 
信息 。 对 某 个 数据 结构 的 更 改 必须 提交 到 其 所 有 者 ， 也 就 是 该 结构 第 一 次 发 布 时 所 在 的 服务 器 。 所 有 
者 可 以 将 所 有 权 传 给 同一 注册 处 的 其 他 UDDI 服务 器 。 

复制 模式 : 注册 处 的 成 员 按 照 如 下 方式 相互 传播 数据 结构 的 拷贝 一 一 进行 了 变更 的 服务 器 通知 注 
册 处 的 其 他 服务 器 ， 然 后 这 些 服务 器 请 求 进行 更 改 。 使 用 一 个 向 量 时 间 玲 来 确定 应 该 被 传播 和 应 用 的 
Bk, SHAAN RMS AAR (如 18.4.1 节 的 闲聊 体系 结构 或 18.4.3 节 的 Coda) HLL, 
这 个 模式 是 简单 的 ， 因 为 : 
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1) 对 某 个 数据 结构 的 所 有 更 改 都 在 同一 个 服务 器 上 进行 。 

2) 来 自 某 个 服务 器 的 更 新 按 顺序 被 其 他 成 员 接 收 ， 但 是 不 同 服务 器 所 做 的 更 新 之 间 不 存在 特定 的 
顺序 。 

服务 器 之 间 的 交互 : 如 上 所 述 ， 服 务 器 之 间 通 过 交互 来 完成 复制 。 还 可 以 通过 交互 来 传递 数据 结 
构 的 所 有 权 。 然 而 ,对 查询 操作 的 响应 由 单个 服务 器 执行 ， 而 不 需要 与 注册 处 其 他 服务 器 进行 任何 交 
H, 这 一 点 与 X. 500 目录 服务 〈 见 13.5 节 ) 不 同 。 在 X500 目录 服务 中 ,数据 被 分 布 到 服务 器 上 ， 
服务 器 通过 互相 协作 来 查找 与 特定 请 求 相关 的 服务 器 。 


9.5 XML 安全 性 


XML 安全 性 由 一 组 相关 的 W3C 提出 的 用 于 签名 、 密 钥 管 理 和 加 密 的 设计 组 成 。 它 用 于 互联 网 上 
的 协作 ， 主 要 针对 互联 网 上 的 文档 内 容 可 能 需要 认证 或 加 密 。 通 常 ， 文 档 被 创建 、 交 换 、 存 储 ， 然 后 
再 次 交换 ， 这 其 中 很 可 能 文档 被 一 系列 不 同 用 户 修改 。 

WS- Security[ Kaler 2002] 是 另 一 种 获得 安全 性 的 方法 ， 该 方法 将 消息 完整 性 、 消 息 机 密 性 以 及 单 
个 消息 的 认证 应 用 到 SOAP。 

考虑 一 个 包含 病人 病历 的 文档 ， 在 这 个 场景 中 XML 安全 性 将 十 分 有 用 。 在 本 地 医生 的 诊疗 室 以 及 
在 病人 去 过 的 不 同 的 诊所 和 医院 分 别 用 到 病历 文档 的 不 同 部 分 。 医 生 、 护 士 、 医 疗 顾问 根据 病情 和 治 
疗 方法 的 历史 记录 来 更 新 该 文档 ， 另 外 负责 预约 的 管理 人 员 以 及 提供 药品 的 药剂 师 也 将 更 新 该 文档 。 
上 面 提 到 的 不 同 角色 可 以 查看 文档 的 不 同 部 分 ， 病 人 也 可 能 查看 文档 。 将 文档 的 某 个 部 分 (如 关于 治 
疗 的 建议 等 ) 归属 到 做 出 这 些 建议 的 人 ， 并 保证 这 个 部 分 不 被 其 他 人 更 改 ， 这 种 做 法 是 很 有 必要 的 。 

TLS 〔〈 即 从 前 的 SSL， 见 11.6.3 节 ) 可 以 用 于 创建 信息 通信 的 安全 通道 ， 但 它 不 能 满足 上 面 的 需 
要 。 在 通道 建立 的 过 程 中 以 及 通道 的 生命 周期 内 ，TLS 允许 通道 两 端的 进程 对 认证 或 加 密 的 需求 、 密 
钥 以 及 用 到 的 算法 进行 协商 。 例 如 ， 可 以 对 有 关 人 金融 交易 的 数据 进行 签名 ， 然 后 以 明文 传送 ， 直 到 需 
要 传送 诸如 信用 卡 信息 等 敏感 信息 时 才 应 用 加 密 。 

考虑 到 上 面 列 出 的 新 的 用 途 ， 必 须 在 文档 内 指定 安全 性 并 应 用 安全 性 ， 而 不 是 将 安全 性 作为 将 文 
档 从 一 个 用 户 传送 到 另 一 个 用 户 的 通道 的 属性 。 

这 可 以 用 XML 以 及 其 他 结构 化 文档 格式 实现 ， 因 为 在 这 些 文档 格式 内 可 以 使 用 元 数据 。XML 标 
签 可 以 用 于 定义 文档 中 数据 的 属性 。 特 别 是 ，XML 安全 人 性 依赖 于 可 以 用 于 指示 加 密 或 签名 数据 以 及 签 
名 项 的 起 止 位 置 的 新 标签 。 一 旦 将 必需 的 安全 性 应 用 到 文档 内 ， 就 可 以 将 其 发 送 到 大 量 不 同 的 用 户 ， 
甚至 是 通过 组 播 的 方式 发 送 。 

基本 需求 XML 安全 性 至 少 应 该 提供 与 TLS 相同 等 级 的 保护 ， 即 : 

婚 能 够 加 审 整 个 文档 ， 也 能 选择 对 文档 的 某 些 部 分 进行 加 密 : 例如 ， 考 虑 金融 交易 中 的 信息 ， 包 
括 姓 名 、 交 易 类 型 以 及 使 用 的 信用 卡 或 借 记 卡 的 信息 。 一 种 情况 是 ， 只 是 将 卡 的 信息 隐藏 ， 从 而 能 够 
在 解密 记录 之 前 识别 出 交易 。 男 一 种 情况 是 ,将 交易 的 类 型 也 隐藏 起 来 ， 这 样 外 部 的 人 就 不 能 分 辨 这 
到 底 是 订单 还 是 付款 。 

既 能 够 对 整个 文档 签名 ， 也 能 够 只 选择 文档 的 某 些 部 分 签名 : 当 文 档 被 用 于 一 组 人 的 协同 工作 时 ， 
应 该 对 文档 中 的 某 些 关 键 部 分 签名 ， 以 保证 这 些 部 分 由 某 个 人 做 出 修改 或 没有 做 出 更 改 。 但 是 文档 中 
可 以 有 些 部 分 能 够 在 使 用 期 间 更 改 ， 这 是 很 有 用 的 ， 这 些 部 分 不 应 该 被 签名 。 

其 他 基本 需求 “有 时 需要 存储 文档 、 可 能 修改 文档 然后 将 其 发 送 到 许多 不 同 的 接收 者 ,这 一 过 程 
产生 了 新 的 需求 。 

在 已 签名 的 文档 上 增加 内 容 并 对 结果 签名 : 例如 ，Alice 对 一 个 文档 签名 并 将 其 传 给 Bob, Bob 通 
过 对 其 添加 一 个 标记 来 证 明 Alice 的 签名 ,然后 对 整个 文档 签名 。( 第 11. 1 节 为 介绍 安全 协议 而 引入 的 
名 字 ， 包 括 Alice 和 Bob。) 

授权 不 同 的 用 户 来 查看 文档 的 不 同 部 分 : 在 病历 的 例子 中 ,调查 人 员 可 以 查看 医疗 记录 的 某 个 特 
定 部 分 ， 管 理 人 员 可 以 查看 个 人 信息 ， 医 生 可 以 查看 这 两 个 部 分 。 

在 包含 加 密 部 分 的 文档 上 增加 内 容 并 对 新 版 本 文档 的 某 个 部 分 加 密 ， 其 中 可 能 包含 某 些 已 加 密 的 部 分 。 
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XML 记号 的 灵活 性 和 结构 化 能 力 使 得 它 能 满足 上 述 所 有 的 需求 ， 不 需要 对 满足 基本 需求 的 机 制 做 
任何 增加 。 

算法 需求 XML 安全 文档 在 考虑 谁 将 访问 文档 之 前 已 经 进行 了 签名 和 加 密 。 如 果 没 有 涉及 文档 的 
创作 者 ， 就 不 可 能 对 协议 以 及 是 否 使 用 验证 或 加 密 进 行 协商 。 因 此 : 

标准 应 该 指定 一 套 在 任何 XML 的 安全 性 实现 中 都 提供 的 算法 : 至 少 应 该 强制 提供 一 个 加 密 算法 和 
签名 算法 ， 从 而 实现 最 大 可 能 的 互 操作 性 。 应 该 尽 可 能 少 的 提供 其 他 可 选 的 算法 。 

用 于 特定 文档 的 加 密 和 认证 的 算法 必须 从 这 一 套 算 法 中 选择 ,使 用 的 算法 的 名 称 必须 在 XML 文档 
自身 内 引用 : 如 果 文 档 使 用 的 环境 不 可 预测 ， 则 必须 使 用 一 个 所 需 的 协议 。 

XML 安全 性 定义 了 元 素 名 字 ， 这 些 名 字 可 以 用 于 指定 签名 或 加 密 所 用 的 算法 的 URI。 因 此 为 了 能 
够 在 相同 的 XML 文档 内 选择 多 种 算法 ， 指 定 算法 的 元 素 通 常 符 套 在 包含 签名 信息 或 加 密 数 据 的 元 
素 内 。 

查找 密 钥 的 需求 ” 当 创建 文档 以 及 每 一 次 更 新 文档 时 ， 都 必须 选择 合适 的 密 钥 ， 而 不 必 与 以 后 可 
能 访问 该 文档 的 人 进行 任何 协商 。 这 引发 了 以 下 需求 : 

帮助 安全 文档 的 用 户 查 找 必 需 的 密 钥 : 例如 ， 包 括 签名 数据 的 文档 应 该 包含 用 来 验证 签名 的 公 铀 
信息 ， 如 一 个 可 以 用 于 获取 密 钥 的 名 称 ， 或 者 一 个 证 书 。KeyInfo 元 素 可 以 用 于 此 目的 。 

使 协作 用 户 能 够 彼此 帮助 查找 密 钥 : 假如 KeyInfo 元 素 没有 以 加 密 方式 绑 定 到 签名 上 ， 则 应 在 不 破 
坏 数字 签名 的 情况 下 添加 信息 。 例 如 ，Alice 对 一 个 文档 签名 后 将 其 发 送 给 Bob， 该 文档 中 包含 一 个 仅 
HE BAN ZAM Keylnfo 元 素 。 当 Bob 收 到 文档 时 ， 他 检索 验证 签名 所 用 的 信息 并 在 将 文档 发 送 到 
Carl 时 将 这 些 信 息 添 加 到 KeyInfo 元 素 中 。 

KeyInfo TÆ XML 安全 性 指定 了 一 个 KeylInfo 元 素 ， 指 示 用 于 验证 签名 或 解密 某 些 数据 的 密 
钥 。 例 如 ， 它 可 以 包括 证 书 、 密 钥 的 名 称 或 密 钥 协定 算法 。 其 使 用 是 可 选 的: 签名 者 可 能 不 想 向 文 
档 的 访问 者 透漏 任何 密 钥 信息 ;而 在 某 些 情 况 下 ， 使 用 XML 安全 性 的 应 用 程序 可 能 有 权 访 问 所 用 的 
HA. 

规范 的 XML 某 些 应 用 程序 可 能 会 做 一 些 对 XML 文档 的 实际 信息 内 容 没有 影响 的 更 改 ， 这 是 因 
为 有 多 种 不 同 的 方式 来 表示 逻辑 上 相同 的 XML 文档 。 例 如 ， 属 性 的 顺序 可 能 不 同 ， 可 能 使 用 不 同 的 字 
符 编 码 ， 但 信息 内 容 是 等 价 的 。 规 范 的 XML www. w3. org X] 由 在 用 数字 签名 ， 而 数字 签名 则 用 来 保 
证 文档 的 信息 内 容 不 被 更 改 。 在 签名 前 ， 要 将 XML 元 素 规范 化 ， 并 将 规范 化 算法 的 名 称 与 签名 一 起 存 
储 起 来 。 这 样 可 以 保证 在 验证 签名 时 使 用 相同 的 算法 。 

规范 形式 是 将 XML 以 比特 流 的 形式 进行 标准 的 序列 化 。 它 添加 了 默认 属性 并 去 除了 多 余 的 模式 ， 
并 在 每 个 元 素 中 将 属性 和 模式 声明 以 词典 顺序 排列 。 它 使 用 了 标准 的 换行 形式 ， 字 符 使 用 UTF-8 编码 
方案 。 任 意 两 个 等 价 的 XML 文档 都 具有 相同 的 规范 化 形式 。 

当 对 XML 文档 的 一 个 子 集 ( 如 一 个 元 素 ) 进行 规范 化 时 ， 规 范 化 形式 应 包括 祖先 上 下 文 ， 即 所 声 
明 的 名 字 空 间 和 属性 的 值 。 因 此 ， 在 规范 的 XML 与 数字 签名 一 起 使 用 时 ， 如 果 将 那个 元 素 置 于 一 个 不 
同 的 上 下 文中 ， 对 该 元 素 签名 的 验证 将 不 会 通过 。 

该 算法 的 一 个 变种 称 为 排他 式 规范 的 XML (Exclusive Canonial XML) ， 它 忽略 序列 化 的 上 下 文 。 如 
果 应 用 程序 想 要 某 个 签名 元 素 能 在 不 同 的 上 下 文中 使 用 ， 则 可 以 使 用 该 算法 。 

以 XML 形式 表示 的 数字 签名 的 使 用 XML 形式 的 数字 签名 规约 [www. w3. org XI] 是 W3C 推荐 
标准 ， 它 定义 了 新 的 XML 元 素 类 型 来 保存 签名 、 算 法 的 名 称 、 密 钥 和 对 签名 信息 的 引用 。 该 规范 中 提 
供 的 名 称 是 按照 XML 签名 模式 定义 的 ， 包括 元 素 Signature、SignatureValue 、SignedInfo 各 KeyInfo。 
图 9-16 显 示 了 在 一 个 XML 签名 的 实现 中 必须 包含 的 算法 。 

密 钥 管理 服务 XML 密 钥 管理 服务 的 规约 (www. w3. org XI] 包含 用 于 分 发 和 注册 XML 签名 使 
用 的 公 钥 的 协议 。 虽 然 不 需要 任何 公 钼 基础 设施 ， 但 该 服务 仍然 可 以 与 现 有 的 公 钥 基础 设施 兼容 ， 如 
X. 509 证 书 〈 兄 11.4.4 节 )、SPKI (简单 公 钥 基础 设施 ， 见 11.4.4 节 ) 或 PGP 密 钥 标识 符 〈 相 当 好 
的 私密 性 ， 见 11. 5.2 节 )。 
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算法 类 型 算法 名 称 是 否 必需 $ # 

消息 摘要 SHA-1 必需 11.4.3 节 

编码 base64 必需 [Freed and Borenstein 1996] 
签名 使 用 SHA-1 的 DSA 必需 [NIST 1994] 

〈 非 对 称 ) 使 用 SHA-1 的 RSA 推荐 11.3.2 节 

MAC 签 名 HMAC-SHA-1 必需 11.4.2 节 和 Krawczyk 等 [1997] 
(对 称 ) 
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图 9-16 XML 签名 所 需 的 算法 


客户 可 以 使 用 该 服务 查找 某 个 人 的 公 铀 。 例 如 ， 如 果 Alice WA Bob 发 送 一 封 加 密 的 电子 邮件 ， 她 
可 以 使 用 该 服务 来 获得 Bob 的 公 钥 。 另 一 个 例子 是 ，Bob 从 Alice 那里 收 到 一 个 签名 文档 ， 该 文档 包含 
Alice 的 X 509 证 书 ， 那 么 Bob 将 请 求 密 钥 信息 服务 来 获取 公 钥 。 

XML 加 密 。 [www. w3. org XIV] 中 定义 了 对 XML 的 加 密 标准 ， 它 是 W3C 推荐 标准 ， 定 义 了 用 
XML 表示 加 密 数 据 的 方式 ， 也 定义 了 加 密 和 解密 的 过 程 。 它 引 人 了 EncryptedData 元 素来 包含 加 密 数 据 
部 分 。 

图 9-17 指定 了 应 该 包含 在 XML 加 密 的 实现 中 的 加 密 算法 。 块 密码 算法 用 于 加 密 数 据 ，base64 纺 
码 在 XML 中 用 来 表示 数字 签名 和 加 密 数 据 。 密 钥 传 输 算法 是 用 于 加 密 以 及 解密 密 钥 本身 的 公 钥 加 密 
算法 。 





























算法 类 型 算法 名 称 是 否 必 需 参 考 
块 密码 TRIPLEDES 必需 11.3.1 节 
AES-128, AES-256 
AES-192 可 选 
编码 base64 必需 [Freed and Borenstein 1996] 
密 钥 传输 RSA-v1.5 必需 11.3.24 
RSA-OAEP [Kaliski and Staddon1998] 
对 称 密 钥 包装 TRIPLEDES KeyWrap 必需 [Housley 2002] 
(由 共享 密 钥 签名 》 AES-128 KeyWrap 
AES-256 KeyWrap 
AES-192 KeyWrap 可 选 
密 钥 协定 Diffie-Hellman 可 选 [Rescorla, 1999] 









图 9-17 加 密 所 需 的 算法 (还 需要 图 9-16 中 的 算法 ) 


对 称 密 钥 包装 算法 是 共享 密 钼 加 密 算法 ， 用 于 通过 另 一 个 密 钥 来 加 密 和 解密 对 称 密 钥 。 如 果 密 钥 
包含 在 KeylInfo 元 素 中 ， 则 可 以 使 用 该 算法 。 

密 钥 协定 算法 允许 从 一 对 公 钥 的 计算 结果 得 到 一 个 共享 的 私 钥 。 若 应 用 程序 想 不 进 行 任 何 交换 就 
共享 密 钥 ， 则 可 以 使 用 该 算法 。 它 不 适用 于 XML 安全 系统 自身 。 


9.6 Web 服务 的 协作 


SOAP 基础 设施 支持 客户 和 服务 器 之 间 的 单个 请 求 -应 管 交 互 。 然 而 ,许多 有 用 的 应 用 程序 往往 涉 
及 很 多 请 求 ， 必 须 以 特定 顺序 处 理 。 例 如 ， 在 订 机 票 时 ， 在 进行 预订 之 前 必须 收集 价格 和 剩余 机 票 的 
信息 。 当 用 户 通 过 浏览 器 与 网 页 交互 时 ， 例 如 订 机 票 或 在 拍卖 中 竞价 ， 浏 览 器 提供 的 接口 根据 服务 器 
提供 的 信息 来 控制 操作 执行 的 顺序 。 

然而 ， 如 果 服 务 是 一 个 负责 预订 的 Web 服务 ， 类 似 于 图 9-2 显示 的 旅行 代理 服务 ， 那 么 在 该 Web 
服务 与 其 他 执行 汽车 租赁 、 酒 店 预订 和 机 票 预订 等 的 服务 交互 时 ， 需 要 按照 一 个 合适 的 描述 来 工作 。 
图 9-18 给 出 了 这 样 一 个 描述 。 
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1 .客户 向 旅行 代理 服务 请 求 有 关 一 组 服务 的 信息 ， 如 航班 、 汽 车 租赁 和 酒店 预订 。 
2. 旅 行 代理 服务 收集 价格 和 可 用 信息 并 将 其 发 送 给 客户 ， 客 户 代 表 用 户 选择 以 下 一 种 动作 : 
Ca) 改进 查询 ， 可 能 涉及 更 多 提供 者 ， 从 而 获得 更 多 信息 ， 然 后 重复 步骤 2 。 
D) 做 出 预订 。 
(oc) 退出 。 
3. 客 户 请 求 预订 ， 旅 行 代理 服务 检查 是 否 可 以 预订 。 
4. 要 么 所 有 服务 都 可 以 预订 ; 
和 要么 对 于 不 可 用 的 服务 ; 
有 要么 向 返回 步骤 3 的 客户 提供 替代 服务 。 
有 要么 客户 返回 步 又 1。 
5. 交 纳 定金 。 
6. 作 为 确认 ， 给 客户 一 个 预订 号 。 
7. 在 最 后 付款 前 这 段 时 间 中 ， 客 户 可 修改 或 取消 预订 。 











图 9-18 旅行 代理 场景 


这 些 例子 闹 述 了 在 与 其 他 Web 服务 进行 交互 时 ， 需 要 给 作为 客户 的 Web 服务 提供 一 种 要 遵循 的 协 
议 的 描述 。 但 在 服务 器 接收 和 响应 多 个 客户 的 请 求 时 ， 还 存在 服务 器 的 数据 保持 一 致 性 的 问题 。 第 16 
章 和 第 17 章 讨论 了 事务 ， 并 通过 一 系列 银行 事务 阐述 了 这 个 问题 。 作 为 一 个 简单 的 例子 ， 在 两 个 银行 
账户 之 间 转 账 时 ， 一 致 性 要 求 向 一 个 账户 存 钱 和 从 另 一 个 账户 取 钱 这 两 个 操作 必须 都 执行 。 第 17 章 介 
绍 了 两 阶段 提交 协议 ， 协 同 服务 器 使 用 该 协议 来 确保 事务 的 一 致 性 。 

在 某 些 情况 下 ， 原 子 事务 能 够 满足 使 用 Web 服务 的 应 用 程序 的 需求 。 然 而 ， 诸 如 旅行 代理 这 样 的 
活动 需要 花费 很 长 时 间 才 能 完成 ， 并 且 由 于 要 在 很 长 时 间 内 锁定 资源 ， 因 此 使 用 两 阶段 提交 协议 来 执 
行 这 些 活动 是 很 不 实际 的 。 一 种 可 选 的 方案 是 使 用 更 灵活 的 协议 ， 在 该 协议 中 每 个 参与 者 在 出 现时 都 
对 持久 性 状态 做 出 更 改 。 在 发 生 故 障 的 情况 下 ， 使 用 应 用 级 的 协议 来 撤销 这 些 操作 。 

在 传统 的 中 间 件 中 ， 基 础 设施 提供 了 一 个 简单 的 请 求 - 应 答 协议 ， 人 允许 将 事务 、 持 久 性 和 安全 性 
等 服务 作为 单独 的 高 级 服务 来 实现 ， 以 便 在 需要 时 可 以 使 用 这 些 服 务 。 对 Web 服务 来 说 也 是 这 样 ， 
W3C 和 其 他 组 织 已 经 在 定义 更 高 级 的 服务 方面 做 出 了 许多 努力 。 

在 Web 服务 协调 的 通用 模型 方面 已 经 取得 了 一 些 成 果 ， 该 模型 类 似 于 17. 2 节 讨 论 的 分 布 式 事务 
模型 。 这 是 因为 有 协调 者 和 参与 者 角色 ， 这 些 角 色 能 够 执行 特定 的 协议 ， 如 执行 分 布 式 事务 。Langwor- 
thy[ 2004] 描述 了 这 项 称 为 WS-Coordination 的 工作 。 该 小 组 还 给 出 了 事务 如 何在 该 模型 中 得 到 执行 的 
说 明 。 若 要 透彻 研究 Web 服务 协调 协议 ， 请 参见 Alonso 等 [2004]。 

在 本 节 的 剩余 部 分 里 ， 我 们 给 出 了 Web 服务 编排 所 蕴涵 的 思想 。 考 虑 这 样 一 个 事实 ， 通 过 工作 在 
同一 个 任务 〈 如 旅行 代理 情况 ) 中 的 Web 服务 对 之 间 的 交互 ， 可 以 描述 所 有 可 能 的 有 效 路 径 。 如 果 存 
在 这 样 一 个 描述 ， 则 可 以 用 它 来 协调 共同 任务 。 它 还 可 以 用 作 服 务 的 新 实例 〈 如 想 加 入 协作 的 一 个 新 
的 航班 预订 服务 ) 要 遵循 的 规约 。 

W3C 使 用 术语 编排 (choreography) 来 表示 基于 WSDL 的 用 来 定义 协调 的 语言 。 例 如 ， 该 语言 可 以 
指定 参与 者 之 间 交 换 信息 所 依照 的 顺序 和 条 件 方 面 的 限制 。 编 排骨 在 提供 一 组 交互 的 全 局 描述 ， 显 示 
每 个 参与 者 的 行为 ， 从 而 达到 增强 互 操 作 性 的 目的 。 

编排 的 需求 ”编排 则 在 支持 Web 服务 之 间 的 交互 ， 这 些 Web 服务 通常 由 不 同 的 公司 和 组 织 来 管 
理 。 一 个 涉及 多 个 Web 服务 和 客户 的 协作 应 按照 参与 者 之 间 的 一 组 可 观测 的 交互 来 描述 。 这 样 的 一 个 
描述 可 以 看 做 参与 者 之 间 的 契约 ， 该 描述 有 以 下 用 途 : 

。 ”为 想 参 与 的 新 服务 生成 代码 概要 ，; 

。 ”作为 为 新 服务 生成 测试 消息 的 基础 ; 

。 ”提升 对 协作 的 共同 理解 

。 ”分 析 协 作 ， 例 如 识别 可 能 的 死 锁 情况 。 

一 组 协作 的 Web 服务 使 用 一 个 通用 的 编排 描述 ， 这 样 应 该 能 产生 具有 更 好 互 操作 性 的 更 为 健壮 的 
服务 。 另 外 ， 将 更 容易 开发 和 引入 新 的 服务 ， 使 得 整个 服务 更 为 有 用 。 
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[ www. w3. org XV] 上 的 W3C 工作 草案 文档 建议 一 种 编排 语言 应 包含 以 下 特征 : 
可 以 编排 出 层次 和 递归 结构 ; 
为 现 有 服务 增加 新 实例 和 增加 新 服务 的 能 力 ; 
并 发 路 径 、 选 择 路 径 和 重复 编排 某 一 部 分 的 能 力 ; 
可 变 的 超时 时 间 一 一 例如 ， 不 同 的 预订 保存 时 间 ; 
异常 ， 比 如 用 来 处 理 乱 序 到 达 的 消息 、 用 来 处 理 撤销 等 用 户 操作 ; 
异步 交互 (回调 ) ; 
引用 传递 ， 如 允许 汽车 租赁 公司 向 银行 咨询 来 检查 用 户 的 信用 ; 
划分 所 发 生 的 不 同事 务 的 边界 ， 以 便 进 行 恢 复 ; 
包含 可 供 人 阅读 的 文档 的 能 力 。 
另 一 个 W3C 工作 草案 文档 [ www. w3. org XVI] 描述 了 一 个 基于 这 些 需求 的 模型 。 
编排 语言 ”目的 是 生成 一 种 声明 性 的 、 基 于 XML 的 语言 ， 用 来 定义 可 以 使 用 WSDL 定义 的 编排 。 
W3C 已 经 给 出 了 一 个 推荐 标准 : Web 服务 编排 定义 语言 版 本 1 (Web Services Choreography Definition 
Language Version 1 ) [ www. w3. org XVI] 。 在 此 之 前 ， 一 些 公司 向 W3C 提交 了 一 个 Web 服务 编排 接口 规 
范 [www. w3. org XVIL 。 


9.7 Web 服务 的 应 用 


Web 服务 现在 是 分 布 式 系统 编程 的 主流 范 型 之 一 。 本 节 ， 我 们 讨论 Web 服务 被 广泛 采用 的 若干 主 
要 的 领域 :在 支持 面向 服务 的 体系 结构 方面 ， 网 格 和 后 来 的 云 计算 。 


9.7.1 面向 服务 的 体系 结构 


面向 服务 的 体系 结构 (Service-Oriented Architecture, SOA) 是 一 套 设 计 原则 ， 依 照 该 原则 ， 分 布 
式 系统 用 松 耦 合 的 服务 集 开 发 ， 这 里 服务 能 被 动态 发 现 ， 能 相互 通信 并 通过 编排 进行 协调 从 而 提供 加 
强 的 服务 。 面 向 服务 的 体系 结构 是 一 个 抽象 的 概念 ， 可 以 用 许多 技术 实现 ， 包 括 第 8 章 讨论 的 分 布 式 
对 象 或 基于 组 件 的 方法 。 但 是 ， 实 现 面向 服务 的 体系 结构 的 主要 手段 是 通过 使 用 Web 服务 ， 这 主要 是 
出 于 这 个 方法 中 内 在 的 松 耦合 特性 〈 见 9.2 节 的 讨论 ) 。 

这 个 体系 结构 风格 能 用 在 一 个 业务 或 组 织 中 ， 从 而 提供 一 个 灵活 的 软件 体系 结构 ， 实 现 不 同 服务 
之 间 的 互 操 作 性 。 而 它 主 要 在 更 广阔 的 互联 网 使 用 ， 提 供 服 务 的 一 个 公共 视图 ， 使 得 这 些 服 务 可 以 被 
全 球 访问 并 负责 后 续 的 组 合 。 这 使 得 超越 互联 网 内 在 的 异 构 性 水 平 是 可 能 的 ， 也 使 得 通过 内 部 采用 不 
同 的 中 间 件 产品 能 处 理 不 同 组 织 的 问题 一 一 一 种 可 能 的 情况 是 这 样 的 : 一 个 组 织 内 部 使 用 CORBA， 另 
一 个 组 织 内 部 使 用 . NET， 但 接着 两 者 用 Web 服务 暴露 其 接口 ， 因 此 这 样 鼓励 全 球 互 操作 性 。 形 成 的 
结果 被 称 为 业务 到 业务 (Business-to- Business，B2B) 集成 。 在 图 9-18 中 ， 我 们 已 经 看 到 B2B 集成 需 
求 的 例子 〈 旅 游 代理 场景 ) ， 旅 游 代 理 可 以 与 范围 很 广 的 诸如 提供 飞机 航线 、 汽 车 租赁 和 旅店 住宿 的 
公司 打交道 

面向 服务 的 体系 结构 也 促进 和 鼓励 软件 开发 的 mashup 方法 。 一 个 mashup 是 一 个 由 第 三 方 开 发 者 
创建 的 通过 组 合 两 个 或 更 多 分 布 式 环境 中 可 用 服务 的 新 服务 。mashup 文化 依赖 有 良好 定义 接口 的 有 用 
服务 的 可 用 性 ， 它 与 开放 创新 社区 紧密 关联 ， 雇 佣 单 人 或 小 组 开发 实验 性 组 合 服务 ， 并 使 得 这 些 服务 
可 被 其 他 人 用 来 做 进一步 的 开发 。 互 联网 现在 满足 了 这 两 个 条 件 ， 特 别 是 随 着 云 计算 和 “软件 即 服 
务 ”( 参 见 7.7.1 节 的 介绍 ) 的 出 现 。 主 要 的 软件 开发 者 如 Amazon, Flickr 和 eBay 通过 发 布 的 接口 给 
其 他 开发 者 使 得 服务 可 用 。 作 为 一 个 例子 ， 参 考 JBidwatcher[ www. jbidwatcher. org] ， 一 个 基于 Java 的 
mashup 提供 给 eBay 的 接口 ， 主 动 代表 客户 管理 投标 ， 例 如 跟踪 拍卖 ， 以 及 在 最 后 一 秒 投标 以 最 大 化 成 
功 的 机 会 。 


9.7.2 网 格 
“网 格 ” 指 的 是 一 种 中 间 件 ， 它 使 得 非常 大 规模 的 文件 、 计 算 机 、 软 件 、 数 据 和 传感器 等 资源 的 
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共享 成 为 可 能 。 这 些 资源 主要 是 由 位 于 不 同 组 织 中 的 许多 用 户 共享 ， 他 们 通过 共享 数据 或 共享 计算 能 
力 来 协作 解决 一 些 需要 大 量 计 算 机 才能 解决 的 问题 。 这 些 资源 需要 得 到 蜡 构 的 计算 机 硬件 、 操 作 系 统 、 
编程 语言 和 应 用 程序 的 支持 。 为 了 确保 客户 能 够 获得 所 需要 的 资源 并 且 服 务 能 提供 这 些 资源 ， 需 要 进 
行 适 当 的 管理 来 协调 对 这 些 资源 的 使 用 。 在 某 些 情况 下 ， 需 要 复杂 的 安全 技术 来 保证 在 该 类 型 的 环境 
下 正确 地 使 用 资源 。 至 于 网 格 应 用 程序 的 一 个 例子 ， 参 考 下 面 方 框 中 的 内 容 ， 其 中 介绍 了 Microsoft Re- 
search 开发 的 World- Wide Telescope 应 用 。 








World- Wide Telescope :一 个 网 格 应 用 

World- Wide Telescope 项 目 关注 天 文 团体 共享 的 数据 资源 的 部 署 ， 在 Szalay 和 Gray[ 2004 ] 、Sza- 
lay 和 Gray[2001] 以 及 Gray 和 Szalay[ 2002] 的 工作 中 介绍 了 这 个 项 目 。 天 文 数据 由 观测 档案 组 
成 ， 每 一 个 观测 文档 包含 一 段 特 定时 间 、 一 段 电磁 波 频谱 (光学 的 、X 射线 的 、 无 线 电 的 ) 和 天 
空 的 一 片区 域 。 这 些 观 测 数据 是 由 分 布 在 世界 各 地 的 不 同 设备 获得 的 。 

有 关 天 文学 家 如 何 共享 数据 的 研究 对 于 得 出 典型 的 网 格 应 用 的 特征 是 非常 有 用 的 ， 这 是 因为 天 
文学 家 可 以 彼此 自由 地 共享 他 们 的 成 果 ， 可 以 忽略 安全 的 问题 ， 从 而 简化 了 这 个 问题 的 讨论 。 

天 文学 家 需要 整合 同一 天 体 对 象 的 多 个 不 同时 间 段 和 多 段 频谱 的 数据 来 进行 研究 。 能 够 使 用 独 
立 的 观测 数据 对 研究 十 分 重要 。 可 视 化 可 以 使 天 文学 家 能 够 查看 数据 的 2 维 或 3 维 散 点 图 。 

数据 收集 小 组 将 数据 存储 在 大 容量 存储 设备 中 (现在 是 以 TB 计 ) ， 这 样 每 个 数据 收集 小 组 都 
可 以 对 其 进行 本 地 管理 。 用 于 收集 数据 的 设备 服从 摩尔 定律 ， 因 此 收集 到 的 数据 以 指数 方式 增长 。 
在 收集 数据 时 ， 使 用 流水 线 方式 分 析 数 据 并 存储 得 到 的 数据 供 全 世界 天 文学 家 使 用 。 但 在 其 他 研究 
人 员 使 用 数据 之 前 ， 在 某 一 领域 的 科学 家 需要 协商 一 种 方法 来 标记 数据 。 

Szalay 和 Gray[ 2004] 指出 ， 在 过 去 ， 科 学 研究 数据 由 其 作者 写成 论文 发 表 在 期 刊 上 ， 并 保存 
在 图 书馆 中 。 但 是 现在 ， 数 据 的 数量 过 于 巨大 ， 出 版 物 无 法 包含 。 这 种 情况 不 仅 在 天 文学 领域 出 
M, 粒子 物理 、 基 因 和 生物 研究 领域 也 存在 这 个 问题 。 现 在 ， 科 学 家 通常 是 共同 协作 ,花费 5 ~ 10 
年 时 间 做 实验 ， 然 后 将 生成 的 数据 发 布 到 基于 Web 的 数据 存储 中 。 因 此 ， 研 究 该 项 目的 科学 家 除 
了 是 作者 还 成 了 数据 发 布 人 员 和 管理 人 员 。 

这 个 额外 的 职责 要 求 任 何 管理 数据 存储 的 组 织 要 使 得 其 他 研究 人 员 能 访问 这 些 存储 。 这 意味 着 
在 原 有 的 数据 分 析 任务 之 上 要 增加 相当 大 的 开销 。 要 使 这 种 共享 成 为 可 能 ， 就 需要 元 数据 来 描述 数 
据 收集 时 间 、 天 空 区 域 和 使 用 的 设备 等 原始 数据 。 另 外 ， 导 出 数据 需要 跟 描 述 处 理 数 据 的 流水 线 的 
参数 的 元 数据 一 起 存放 。 

导出 数据 的 计算 需要 大 量 的 计算 。 通 常 在 技术 改进 时 需要 重新 进行 计算 。 所 有 这 些 对 于 拥有 数 
据 的 组 织 而 言 都 是 不 小 的 花费 。 

World- Wide Telescope 的 目的 是 将 全 世界 的 天 文 数据 整合 到 一 个 巨大 的 数据 库 中 ， 这 个 数据 库 
| 包括 天 文学 文献 、 图 像 、 原 始 数据 、 导 出 数据 集 和 模拟 数据 。 


网 格 应 用 的 需求 World-Wide Telescope 是 数据 密集 型 网 格 应 用 的 典型 例子 ， Hy, 
数据 通过 科学 设备 收集 。 

。 数据 存储 于 一 系列 不 同 站 点 的 存储 设备 中 ， 这 些 站 点 可 以 位 于 世界 的 任何 地 方 。 
. 数据 由 不 同 组 织 的 科学 家 小 组 管理 。 














设备 生成 的 原始 数据 十 分 巨大 且 不 断 增长 (以 TB 或 PB 计 )。 
使 用 计算 机 程序 来 分 析 和 总 结 原始 数据 ， 如 对 表示 天 体 对 象 的 原始 数据 进行 分 类 、 校 准 和 
编目 。 
世界 各 地 的 科学 家 可 以 通过 互联 网 访问 所 有 的 这 些 数 据 档案 ， 他 们 能 够 获得 不 同 地 点 的 不 同 设备 
在 不 同时 间 采 集 的 数据 。 然 而 ， 一 个 在 其 研究 中 使 用 这 些 数据 的 科学 家 仅仅 对 数据 存储 中 对 象 的 一 个 
子 集 感 兴趣 。 
考虑 到 诸如 所 需 的 传输 时 间 和 本 地 的 磁盘 空间 等 因素 ， 数 据 存储 中 海量 的 数据 如 果 不 经 过 处 理 以 
抽取 感 兴趣 的 对 象 就 传输 给 用 户 是 不 现实 的 。 因 此 在 这 种 环境 下 不 适合 使 用 FTP 或 Web 访问 。 应 该 在 
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收集 原始 数据 并 将 其 存储 在 数据 库 的 位 置 对 其 进行 处 理 。 当 科学 家 对 某 一 对 象 进 行 查询 时 ， 可 以 对 每 
一 个 数据 库 中 的 信息 进行 分 析 。 如 果 需 要 ， 则 在 返回 远程 查询 结果 之 前 生成 可 视 化 图 形 。 

数据 在 不 同 的 地 点 被 处 理 这 一 事实 已 经 为 我 们 提供 了 内 在 的 并 行 性 ， 从 而 有 效 地 分 制 了 要 处 理 的 
巨大 任务 。 

从 上 面 的 特征 可 以 获得 以 下 需求 : 

R1 ;对 资源 的 远程 访问 ， 即 远程 访问 数据 档案 中 所 需 的 信息 。 

R2: 可 以 在 收集 数据 时 ， 也 可 以 在 响应 请 求 时 ， 在 存储 和 管理 数据 的 站 点 上 处 理 数据 。 一 个 典型 
的 查询 可 以 得 到 基于 不 同 设备 在 不 同时 间 记 录 的 某 一 区 域 的 天 空 的 数据 的 可 视 化 显示 。 这 将 涉及 从 每 
个 大 规模 的 数据 存储 中 选择 少量 的 数据 。 

R3， 数 据 存储 的 资源 管理 器 应 该 能 够 动态 地 创建 服务 实例 来 处 理 所 需 的 数据 的 特定 部 分 ， 正 如 在 
分 布 式 对 象 模型 中 那样 ， 每 当 需 要 伺服 器 来 处 理由 一 个 服务 管理 的 不 同 资源 时 就 创建 它 。 

R4; 需要 使 用 元 数据 来 描述 : 

一 所 存储 的 数据 的 特征 ， 例 如 对 于 天 文学 ， 这些 特征 有 : 天 空 区域 、 数 据 收集 的 日 期 和 时 间 以 及 
使 用 的 设备 。 

一 管理 这 些 数据 的 服务 的 特征 ， 如 其 花费 、 地 理 位 置 、 发 布 者 或 负载 、 可 用 的 空间 。 

R5 ;基于 上 述 元 数据 的 目录 服务 。 

Ró: 考虑 到 资源 通常 是 由 生成 数据 的 组 织 管理 ， 并 且 需 要 合理 访问 这 些 资 源 ， 所 以 需要 管理 查 
询 、 传 输 数 据 和 提前 预订 资源 的 软件 。 

Web 服务 提供 一 种 简单 的 方法 允许 科学 家 对 远程 数据 存储 中 的 数据 进行 操作 ， 从 而 满足 了 前 两 个 
需求 。 这 和 需要 每 个 应 用 程序 都 提供 一 个 服务 描述 ， 该 服务 描述 包括 一 系列 访问 其 数据 的 方法 。 网 格 中 
间 件 必须 处 理 剩 下 的 需求 。 

网 格 还 用 于 计算 密集 型 网 格 应 用 ， 例 如 在 CERN[ www. uscms. org] 处 理由 CMS 高 能 量 分 子 加 速 器 
产生 的 大 量 数据 、 测 试 候选 药物 分 子 的 效果 [Taufer et al. 2003, Chien 2004] 或 用 集群 计算 机 的 空闲 能 
力 支持 大 量 的 多 人 在 线 游戏 [ www. butterfly. net] 。 在 计算 密集 型 应 用 被 部 署 在 网 格 上 时 ， 资 源 管 理 将 
关注 分 配 计算 资源 和 平衡 负载 。 

最 后 ， 许 多 网 格 应 用 程序 还 需要 安全 性 。 例 如 ， 用 于 医学 研究 和 商业 应 用 的 网 格 。 即 使 在 数据 的 
私密 性 不 是 一 个 问题 ， 建 立 数据 创建 者 的 身份 标识 也 是 十 分 重要 的 。 

网 格 中 间 件 ”开放 的 网 格 服务 体系 结构 (Open Grid Servies Architecture, OGSA) 是 基于 网 格 应 用 
的 一 个 标准 【Foster et al. 2002，2001] 。 它 基于 Web 服务 ,提供 了 一 个 可 以 满足 以 上 需求 的 框架 ， 通 
过 面向 特定 应 用 的 网 格 服务 管理 资源 。Globus 工具 包 实 现 了 这 种 体系 结构 。 

Globus 项 目 开 始 于 1994 年 ， 其 目的 是 提供 一 种 集成 和 标准 化 科学 类 应 用 所 需 功能 的 软件 。 这 些 功 
能 包括 目录 服务 、 安 全 性 和 资源 管理 。 第 一 个 Globus 工具 包 在 1997 年 出 现 。 工 具 包 的 第 2 版 ( 称 为 
GT2) 中 开始 出 现 OGSA， 在 Foster 和 Kesselman[ 2004] 中 介绍 了 这 一 点 。 第 3 版 出 现 于 2002 年 ， 称 之 
为 GT3， 它 基于 OGSA 并 构建 于 Web 服务 之 上 。GT3 是 由 Globus KH (www. globus. org) 等 开发 的 ， 
其 描述 见 Sandholm 和 Gawor[2003]。 那 以 后 ， 还 发 布 了 两 个 版 本 一 一 最 新 的 版 本 称 为 CT5， 是 一 种 开 
WE [www. globus. org] o 

OGSA 的 实例 研究 和 Globus CRE (H GT3 版 本 ) 能 在 本 书 提供 的 Web 网 站 上 找到 
[ www. cdk5. net/web | 。 


9.7.3 云 计 算 


云 计算 是 在 第 1 章 作为 基于 互联 网 的 应 用 、 存 储 和 计算 服务 集合 而 引入 的 ， 这 些 服 务 足 以 支持 大 
多 数 用 户 的 需求 ， 使 得 他 们 能 大 部 分 或 完全 免除 本 地 数据 存储 和 应 用 软件 。 云 计算 也 促进 “任何 东西 
(从 物理 或 虚拟 基础 设施 到 软件 ) 都 是 服务 ”的 观点 ， 服 务 经 常 根 据 使 用 情况 付费 而 不 是 购买 。 因 此 ， 
这 个 概念 内 在 地 与 计算 的 新 的 商务 模型 相 联系 ， 按 照 这 个 商务 模型 ， 云 提供 者 给 顾客 提供 他 们 每 日 使 
用 所 需 的 计算 、 数 据 和 其 他 服务 ， 例 如 ， 在 互联 网 上 提供 足够 的 存储 容量 ， 作 为 一 个 存档 或 后 备 服务 。 
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第 1 章 也 说 明了 云 计 算 和 网 格 之 间 的 重合 。 网 格 的 开发 先 于 云 计算 的 出 现 ， 它 是 云 计算 出 现 的 一 
个 重要 的 因素 。 它 们 共享 相同 的 目标 ， 即 在 更 大 的 互联 网 上 提供 资源 (服务 ) 。 然 而 ， 网 格 试图 关注 
高 端 数据 密集 应 用 或 计算 昂贵 型 应 用 ， 而 云 计 算 更 一 般 化 ， 所 提供 的 服务 惠及 单个 的 计算 机 用 户 直至 
高 端 用 户 。 与 云 计 算 相 关 的 商务 模型 也 是 一 个 显著 的 特征 。 因 此 ， 网 格 是 云 计 算 早 期 的 例子 ， 这 种 说 
法 是 公平 的 ， 但 云 计算 自 从 出 现 后 已 经 有 很 大 的 发 展 。 

按照 “任何 东西 都 是 服务 ”的 观点 ，Web 服务 提供 了 一 种 自然 的 实现 云 计算 的 途径 ， 而 且 不 少 供 
应 商 按 该 途径 操作 。 这 方面 最 有 名 的 产品 是 Amazon Web Services (AWS) [ aws. amazon. com] ， 下 面 我 们 
简要 查看 一 下 它 的 技术 。 在 第 21 章 ， 当 我 们 查看 Googe 基础 设施 和 相关 的 Google App Engine (两 者 都 
采用 比 Web 服务 轻 量 级 的 、 高 性 能 的 方法 ) 时 ,我 们 将 看 到 实现 云 计算 的 另 一 种 方法 。 

Amazon Web Service 是 一 套 云 服务 ， 实 现在 Amazon. com 所 拥有 的 大 量 的 物理 基础 设施 上 。Amazon 
原本 为 了 内 部 使 用 〈 即 支持 它们 的 电子 零售 业务 而 开发 ) ， 现 在 ， 它 提供 了 许多 设施 给 外 部 用 户 ， 使 
得 他 们 能 在 基础 设施 上 运行 独立 的 服务 。AWS 的 实现 处 理 了 关键 的 分 布 式 系统 问题 ， 如 服务 可 用 性 的 
管理 、 可 伸缩 性 和 性 能 ，AWS 允许 开发 者 关注 他 们 的 服务 的 使 用 。 用 本 章 前 面 描述 的 Web 服务 标准 ， 
可 以 使 得 开发 的 服务 可 用 。 熟 悉 Web 服务 的 程序 员 乐 于 使 用 AWS， 并 且 能 在 他 们 的 构建 中 开发 结合 了 
Amazon Web Services 的 mashup。 更 一 般 性 地 ， 这 个 方法 使 得 互联 网 上 的 互 操作 成 为 可 能 。Amazon 也 采 
用 Fielding[ 2000] 提倡 的 、 已 在 9. 2 节 讨 论 过 的 REST 方法 。 

Amazon 提供 各 种 可 扩展 的 服务 集 ， 最 重要 的 在 图 9- 19 中 列 出 。 我 们 下 面 来 详细 地 谈 一 下 EC2 的 
特点 。EC2 是 一 个 弹性 计算 服务 ， 这 里 术语 “弹性 ” 指 的 是 提供 计算 容量 的 能 力 ， 它 可 以 根据 顾客 的 
需求 调整 大 小 。 相 对 于 一 个 实际 的 机 器 ，EC2 提供 给 用 户 一 个 虚拟 的 机 器 ， 称 为 “实例 (instance)” , 
用 于 实现 用 户 期 望 的 规约 。 例 如 ， 一 个 用 户 能 请 求 下 列 类 型 的 实例 : 

。 一 个 标准 实例 ， 适 用 于 大 多 数 应 用 ; 

© 一 个 高 内 存 的 实例 ， 提 供 额 外 的 内 存 容 量 ， 例 如 ， 对 涉及 缓存 的 应 用 ; 

© 一 个 高 CPU 实例 ， 用 于 支持 计算 密集 型 任务 ; 

e 一 个 集群 计算 实例 ， 提 供用 高 带宽 互 连 的 虚拟 处 理 器 的 集群 ， 用 于 执行 高 性 能 计算 任务 。 


夏 ”Web 服务 a 述 ] 


Amazon Elastic Compute Cloud (EC2) 基于 Web 的 服务 ， 提 供 对 内 拟 机 的 访问 ， 这 些 虚拟 机 具有 给 定性 能 和 存储 容量 
Amazon Simple Storage Service (S3) 基于 Web 的 针对 非 结 构 化 数据 的 存储 服务 











Amazon Simple DB 基于 Web 的 可 查询 结构 化 数据 的 存储 服务 
Amazon Simple Queue Service (SQS) 支持 消息 队列 的 托管 服务 (参见 第 6 章 的 讨论 ) 
Amazon Elastic MapReduce 基于 Web 的 使 用 MapReduce 模 型 的 分 布 式 计算 服务 (参见 第 21 章 》 





Amazon Flexible Payments Service (FPS) 基于 Web 的 支持 电子 支付 的 服务 


图 9-19 Amazon Web Service 精 选 


其 中 的 几 个 Web 服务 能 进一步 地 细 化 ， 例 如 ， 对 一 个 标准 实例 ， 可 以 请 求 一 个 小 型 的 、 中 等 的 或 
大 型 的 实例 ， 以 代表 按 处 理 能 力 、 内 存 、 磁 盘存 储 等 刻画 的 不 同 的 规约 。 

EC2 是 构建 在 Xen 超级 管理 程序 之 上 的 ， 相 关 讨 论 参 见 7.7.2 节 。 实 例 能 通过 配置 而 运行 多 种 操 
作 系 统 ， 包 括 Windows Server 2008, Linux 或 OpenSolaris。 它 们 也 能 通过 配置 而 运行 多 种 软件 。 例 如 ， 
可 以 请 求 安装 Apache HTTP 来 支持 Web 托管 。 

EC2 支持 弹性 IP 地 址 概念 ， 它 看 上 去 像 一 个 传统 的 了 P 地 址 ， 但 与 用 户 账号 相关 而 不 是 与 一 个 特定 
的 实例 相关 。 这 意味 着 如 果 一 个 (虚拟) 机 器 出 故 谭 ， 卫 地 址 能 被 重新 赋 给 一 个 不 同 的 机 器 ， 而 不 需 
要 请 求 网 络 管理 员 的 干扰 。 


9.8 人 小结 
本 章 说 明了 Web 服务 的 产生 源 于 为 不 同 组 织 之 间 的 交互 提供 基础 设施 的 需要 。 该 基础 设施 通常 使 
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用 HTTP 协议 通过 互联 网 在 客户 和 服务 器 之 间 传 输 消 息 ， 它 使 用 URI 来 指向 资源 。 使 用 文本 格式 的 
XML 表示 数据 和 编码 数据 。 

两 个 独立 的 因素 导致 了 Web 服务 的 出 现 。 一 个 因素 是 : 为 了 允许 客户 程序 而 不 是 浏览 器 以 一 种 更 
丰富 的 交互 性 访问 一 个 站 点 上 的 资源 ， 需 要 将 服务 接口 添加 到 Web RGR. H-TSAREABETH 
有 的 协议 在 互联 网 上 提供 一 种 类 似 RPC 的 结构 。 由 此 产生 的 Web 服务 提供 了 带 有 一 组 可 以 远程 调用 的 
操作 的 接口 。 与 其 他 形式 的 服务 类 似 ，Web 服务 可 以 是 另 一 个 Web 服务 的 客户 ， 并 允许 一 个 Web 服务 
集成 或 组 合 一 系列 其 他 Web 服务 。 

SOAP 是 Web 服务 和 其 客户 通常 使 用 的 通信 协议 ， 它 可 以 用 于 在 客户 和 服务 器 之 间 传 送 请 求 消息 
及 应 答 ， 这 个 过 程 既 可 以 通过 文档 的 异步 交换 方式 ， 也 可 以 通过 基于 一 对 异步 消息 交换 的 请 求 - 应 答 
协议 来 实现 。 在 这 两 种 情况 中 ， 请 求 或 应 答 消息 都 包含 在 称 为 信封 的 XML 格式 的 文档 中 。 昌 然 可 以 使 
用 其 他 协议 ， 但 SOAP 信封 通常 通过 异步 HTTP 协议 传送 。 

XML 和 SOAP 处 理 程序 可 用 于 所 有 广泛 使 用 的 编程 语言 和 操作 系统 。 这 使 得 可 以 在 任何 地 方 部 署 
Web 服务 及 其 客户 。 由 于 Web 服务 既 不 绑 定 到 任何 编程 语言 也 不 支持 分 布 式 对 象 模型 ， 这 使 得 这 种 形 
式 的 相互 作用 成 为 可 能 。 

在 传统 的 中 间 件 服务 中 ， 接 口 定 义 为 客户 提供 了 服务 的 详细 信息 。 然 而 , 在 Web 服务 中 使 用 了 服 
务 描述 。 服 务 描述 不 仅 描述 了 服务 的 接口 ， 还 指定 了 所 使 用 的 通信 协议 〈 如 SOAP) 和 服务 的 URI。 接 
品 眠 可 以 用 一 组 操作 描述 ， 也 可 以 用 在 客户 和 服务 器 之 间 交 换 的 一 组 消息 描述 。 

需要 交换 某 个 文档 的 多 个 用 户 都 要 在 该 文档 上 执行 不 同 的 任务 ，XML 安全 性 旨 在 为 该 文档 的 内 容 
提供 必要 的 保护 。 不 同 的 用 户 可 以 访问 文档 的 不 同 部 分 ， 某 些 用 户 可 以 添加 或 更 改 文档 内 容 而 有 些 用 
户 则 只 能 阅读 文档 。 为 使 该 文档 在 以 后 的 使 用 中 更 加 灵活 ， 在 文档 内 定义 了 安全 属性 。 它 通过 使 用 一 
种 自 描述 的 格式 -一 XML 来 完成 。XML 元 素 用 于 指定 经 过 加 密 或 签名 的 文档 部 分 ， 也 指定 了 所 使 用 算 
法 的 详细 信息 以 及 用 于 帮助 查找 密 钥 的 信息 。 

Web 服务 已 经 出 于 多 种 目的 被 用 在 分 布 式 系 统 中 。 例 如 ，Web 服务 提供 了 面向 服务 体系 结构 概念 
的 一 种 自然 的 实现 ， 其 中 它们 的 松 耦 合 使 得 具有 互联 网 规模 的 应 用 之 间 的 互 操作 成 为 可 能 一 -包括 业 
务 到 业务 (B2B) WA. EATER BA LH Web 服务 构造 的 mashup 方法 的 出 现 。Web 服务 也 支 
持 网 格 ， 支 持 在 世界 不 同 地 方 的 组 织 中 的 科学 家 或 工程 师 之 间 的 协作 。 他 们 的 工作 通常 基于 由 不 同 站 
点 的 设施 收集 并 在 本 地 处 理 的 原始 数据 的 使 用 。Glopus 工具 包 是 这 种 体系 结构 的 一 个 实现 ， 它 已 用 于 
多 种 数据 密集 型 和 计算 密集 型 应 用 程序 。 最 后 ，Web 服务 被 大 量 用 于 云 计 算 。 例 如 ，Amazon 的 AWS 
完全 基于 Web 服务 标准 ， 并 融合 了 服务 构造 的 REST 哲学 。 


练习 


9.1 比较 5.2 节 介 绍 的 请 求 -应答 协议 和 SOAP 中 的 客户 - 服务 器 通信 的 实现 。 为 什么 SOAP 使 用 的 异步 
消息 更 适合 于 互联 网 上 的 应 用 ， 请 给 出 两 个 原因 。SOAP 通过 使 用 HTTP 在 什么 范围 内 减少 了 两 种 方 
法 之 间 的 差异 ? (第 388 页 ) 

9.2 ”比较 Web 服务 使 用 的 URL 结构 与 4.3.4 节 介 绍 的 远程 对 象 引 用 的 URL 结构 。 说 明 在 每 一 种 情况 下 它 
们 如 何 处 理 客户 请 求 。 (第 393 页 ) 

9.3 ”对 练习 5. 11 的 Election 服务 ， 说 明 SOAP Request 消息 和 相应 的 Reply 消息 的 内 容 ， 用 图 9-4 和 图 9-5 
中 给 出 的 XML 的 图 示 版 本 。 (第 389 页 ) 

9.4 列 出 WSDL 服务 描述 的 五 个 主要 元 素 。 请 说 明 在 练习 5. 11 定义 的 Election 服务 中 ， 请 求 和 应 答 消 息 所 
使 用 的 信息 类 型 一 一 这 些 都 必须 包括 在 目标 名字 空间 中 吗 ? 对 于 vote 操作 ， 画 出 类 似 于 图 9- 11 和 





图 9-13 的 图 。 (第 402 页 ) 
9.5 在 Election 服务 的 例子 中 ， 解释 练习 9.4 中 定义 的 部 分 WSDL 服务 描述 被 称 作 “ 抽 象 ” 的 原因 。 为 使 
服务 描述 成 为 完全 “具体 ”的 ,需要 向 其 中 增添 什么 ? (第 400 页 ) 


9.6 > Election 服务 定义 一 个 Java 接口 ， 使 其 适合 用 作 Web 服务 。 说 明 你 定义 的 接口 为 什么 是 合适 的 。 解 
释 如 何 生成 该 服务 的 WSDL 文档 并 使 得 该 文档 对 客户 可 用 。 (第 396 页 ) 
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9.7 描述 Election 服务 的 Java 客户 代理 的 内 容 。 解 释 如 何 从 静态 代理 获得 正确 的 编码 和 解码 方法 。 





(第 396 页 ) 

9.8 解释 servlet 容器 在 部 署 Web 服务 和 处 理 客户 请 求 时 的 作用 。 (第 396 页 ) 
9.9 在 图 9-8 和 图 9-9 给 出 的 Java 例子 中 ， 虽 然 Web 服务 不 支持 分 布 式 对 象 ， 但 客户 和 服务 器 都 处 理 对 
象 。 为 什么 会 出 现 这 种 情况 ? Java Web 服务 接口 的 限制 是 什么 ? (第 395 页 ) 

9.10 概述 UDDI 中 使 用 的 复制 模式 。 假 设 使 用 向 量 时 间 蕉 来 支持 该 模式 ， 定 义 注册 处 交换 数据 所 用 的 一 
对 操作 。 (第 406 页 ) 

9.11 考虑 到 询问 类 型 ， 解 释 为 什么 既 可 以 把 UDD 看 做 名 字 服 务 又 可 以 看 做 目录 服务 ? UDD 中 的 第 二 个 
421 “D” 指 的 是 “发 现 ”，UDDI 真 的 是 一 个 发 现 服务 吗 ? (第 13 章 和 第 404 页 ) 
9.12 概述 TLS 和 XML 安全 性 之 间 的 主要 区 别 。 从 这 些 区 别 的 角度 ， 解 释 为 什么 XML 特别 适合 其 扮演 的 
角色 ? (第 11 章 和 第 406 页 ) 

9.13 在 任何 人 可 以 预测 最 终 接收 者 之 前 ， 受 XML 安全 性 保护 的 文档 可 以 被 签名 或 加 密 。 采 取 什么 措施 可 
以 确保 后 面 的 接收 者 能 够 访问 前 面 接收 者 使 用 的 算法 ? (第 406 页 ) 

9.14 解释 规范 的 XML 和 数字 签名 之 间 的 相关 性 。 规 范 的 形式 中 可 以 包括 什么 样 的 上 下 文 信息 ?给 出 一 个 
违背 安全 性 的 例子 ， 其 中 上 下 文 在 规范 的 形式 中 省 略 了 。 (第 409 页 ) 

9.15 为 协调 Web 服务 的 操作 可 以 执行 一 个 协调 协议 。 分 别 概述 (1) 集中 式 和 (2) 分 布 式 协调 协议 的 体 
系 结构 。 在 每 种 情况 下 ， 说 明 在 一 对 Web 服务 之 间 建 立 协 调 所 需 的 交互 。 (第 411 页 ) 


比较 RPC 调用 语义 与 WS-ReliableMessaging 的 语义 : (1) 叙述 每 个 所 引用 的 实体 ; (2) 比较 可 用 语 
义 的 不 同 含义 《例如 ， 至 少 一 次 、 最 多 一 次 、 正 好 一 次 )。 (第 5 章 和 第 392 页 ) 
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对 等 系统 


对 等 系统 代表 构造 分 布 式 系统 和 应 用 的 一 种 范 型 ， 在 对 等 系统 中 ， 互 联网 上 的 众多 主机 以 一 种 一 
致 的 服务 方式 提供 它们 的 数据 和 计算 资源 。 对 等 系统 的 出 现 源 于 互联 网 的 快速 发 展 ， 现 在 它们 已 经 包 
含 了 数 百 万 台电 脑 以 及 同等 数量 的 要 求 访问 共享 资源 的 用 户 。 

对 等 系统 的 一 个 关键 问题 是 数据 对 象 在 多 主机 环境 中 的 放置 问题 ， 以 及 考虑 在 负载 平衡 的 前 提 下 
访问 数据 的 方式 ， 并 且 在 不 增加 不 必要 开销 的 情况 下 保证 系统 的 可 用 性 。 我 们 将 描述 几 个 最 近 开发 出 
来 的 能 够 满足 上 述 要 求 的 对 等 系统 和 应 用 。 

对 等 中 间 件 系统 也 获得 了 越 来 越 广泛 的 应 用 ， 这 些 中 间 件 能 够 使 全 球 “ 处 于 互联 网 边缘 ”的 计算 
机 共享 计算 资源 、 存 储 资源 和 数据 资源 。 它 们 以 新 的 方式 利用 现 有 的 命名 、 路 由 、 数 据 复制 和 安全 技 
R, 在 一 组 不 可 靠 、 不 可 信 的 计算 机 和 网 络 上 建立 一 个 可 靠 的 资源 共享 层 。 

对 等 应 用 已 用 于 提供 文件 共享 、Web 缓存 、 信 息 发 布 以 及 其 他 一 些 服务 ， 从 而 利用 互联 网 上 众多 
的 计算 机 资源 。 对 等 应 用 在 存储 海量 不 变数 据 方面 具有 非常 高 的 工作 效率 ， 但 是 这 样 的 设计 对 于 存储 
和 竟 新 可 变数 据 对 象 的 应 用 而 言 ， 效 率 会 有 所 降低 。 


10.1 简介 


现在 对 互联 网 服务 的 需求 越 来 越 大 ， 其 规模 可 能 仅 受 限于 世界 人 口 数 。 对 等 系统 的 目标 就 是 通过 
消除 对 单独 管理 的 服务 器 以 及 相应 的 基础 设施 的 需求 ， 实 现 非常 大 规模 的 共享 数据 和 资源 。 

通过 增加 服务 器 来 扩展 服务 的 范围 收效 甚 微 ， 因 为 服务 提供 者 要 为 提供 服务 而 购置 和 管理 大 量 的 
服务 器 。 管 理 这些 服 务 器 和 对 其 进行 故障 恢复 也 将 耗费 大 量 资源 。 另 外 ， 在 可 用 物理 链 路 上 给 一 台 服 
务 器 提供 的 网 络 带宽 也 是 一 个 主要 的 限制 。 系 统 级 的 服务 〈 如 Sun NFS ( 见 12. 3 节 ) Andrew 文件 系 
统 ( 见 12.4 节 ) 或 视频 服务 器 ( 见 20.6.1 节 )) 和 应 用 层 服务 (如 Google, Amazon 或 者 eBay) 都 不 
同 程度 地 表现 出 上 述 问题 。 l 

对 等 系统 和 旨 在 利用 存在 于 互联 网 以 及 其 他 网 络 上 的 不 断 发 展 的 个 人 计算 机 和 工作 站 上 的 数据 和 计 
算 资 源 ， 提 供 有 用 的 分 布 式 服务 和 应 用 。 随 着 桌面 计算 机 和 服务 器 之 间 的 性 能 差异 越 来 越 小 ， 以 及 宽 
带 网 络 的 不 断 增 长 ， 对 等 系统 越 来 越 引 起 人 们 的 关注 。 | 

但 是 对 等 系统 还 有 更 为 宏 远 的 目标 。 一 位 作者 [Shirky 2000] 曾经 将 对 等 应 用 定义 为 “能 够 利用 
处 于 互联 网 边缘 的 计算 机 上 的 资源 的 应 用 ， 这 些 资 源 包 括 存储 资源 、CPU 资源 、 内 容 资 源 和 人 本 身 ”。 
上 述 定 义 中 提 及 的 各 种 资源 共享 在 适用 于 大 多 数 的 个 人 计算 机 类 型 的 分 布 式 应 用 中 都 能 够 找到 相应 的 
代表 。 本 章 的 目的 是 描述 一 些 通用 的 技术 ， 这 些 技术 可 以 简化 对 等 系统 的 构造 ， 增 强 系 统 的 可 伸缩 性 、 
可 靠 性 和 安全 性 。 

传统 的 客户 - 服务 器 系统 可 以 管理 和 访问 文件 、Web 页 面 或 者 其 他 信息 对 象 ， 这 些 对 象 位 于 一 台 
服务 器 上 或 者 一 个 紧 看 合 的 小 计算 机 集群 上 。 采 用 这 样 的 集中 式 设 计 ， 需 要 对 数据 资源 的 放置 以 及 对 
服务 器 硬件 资源 的 管理 做 出 的 决策 不 多 ， 但 是 提供 服务 的 规模 将 会 受到 服务 器 硬件 能 力 和 网 络 连接 的 
限制 。 对 等 系统 可 以 对 整个 网 络 上 的 计算 机 上 的 资源 进行 访问 (不 论 这 个 网 络 是 互联 网 还 是 公司 内 的 
局 域 网 ) 。 设 计 这 种 系统 的 一 个 关键 方面 是 信息 对 象 的 放置 算法 和 后 续 的 检索 算法 ， 主 要 的 设计 目标 是 
提供 高 度 分 散 和 自 组 织 的 服务 ， 该 服务 允许 计算 机 加 入 或 者 退出 当前 服务 时 ， 能 够 在 参与 的 计算 机 中 
动态 地 平衡 存储 和 处 理 负载 。 

对 等 系统 具有 以 下 特点 : 

。 系统 设计 确保 每 个 用 户 都 能 向 系统 提供 资源 。 

。 虽然 各 个 参与 的 结 点 提供 的 资源 不 同 ， 但 在 同一 个 对 等 系统 中 它们 具有 相同 的 功能 和 责任 。 

© 系统 不 依赖 一 个 中 心 管理 系统 就 能 正常 运行 。 
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© 系统 的 设计 能 够 给 资源 的 提供 者 和 使 用 者 提供 一 定 限度 的 匿名 性 。 

。 系统 能 够 高 效 运行 的 一 个 关键 点 就 是 选择 一 个 在 大 量 主机 中 放置 数据 资源 ， 以 及 访问 这 些 资源 
的 算法 。 这 个 算法 能 够 自动 平衡 各 个 主机 的 负载 ， 确 保 可 用 性 ， 并 且 不 会 增加 不 必要 的 系统 
开销 。 

由 不 同 用 户 和 组 织 拥有 、 管 理 的 计算 机 和 网 络 连 接 往往 都 是 易 变 的 资源 ， 拥 有 者 们 不 能 保证 这 些 
资源 总 是 可 访问 的 、 连 接 在 网 络 上 的 、 不 发 生 错 误 的 ， 因 此 ， 参 与 到 对 等 系统 中 的 计算 机 和 进程 的 可 
用 性 是 不 可 预知 的 。 所 以 ， 对 等 服务 也 不 能 确保 对 单个 资源 访问 的 万 无 一 失 ， 虽 然 可 以 通过 访问 相应 
资源 的 一 个 副本 使 得 这 种 故障 发 生 的 概率 足够 小 。 值 得 注意 的 是 ， 如 果 对 等 系统 所 要 求 的 资源 复制 能 
被 开发 用 于 在 一 定 程度 上 抵抗 来 自 恶 意 结 点 的 干扰 《例如 ， 通 过 拜占庭 容错 技术 ， 参 见 第 18 章 ) ， 那 
人 么 对 等 系统 的 这 个 弱点 可 以 变 成 一 个 长 处 。 

几 个 早期 的 基于 互联 网 的 服务 ， 包括 DNS (13.2.3 节 ) 和 Netnews/Usenet [ Kantor 和 Lapsley 
1986] ， 都 采用 了 多 服务 器 的 、 可 伸缩 的 和 可 容错 的 体系 结构 。Xerox Grapevine 名 字 注 册 和 邮件 传递 服 
Æ [Birrell et al. 1982, Schroeder et al. 1984] 也 是 早期 的 一 个 令 人 感 兴趣 的 可 伸缩 并 且 具 有 容错 机 制 的 
分 布 式 服务 。 用 于 分 布 式 共识 的 Lamport 兼职 议会 算法 (Lamport part-time Parliament Algorithm) , Bayou 
的 复制 存储 系统 ( 见 18.4. 2 节 ) MEIRE P 路 由 算法 (参见 3.4.3 节 ) 都 是 分 布 式 算法 的 例子 ， 
这 些 算法 描述 了 信息 在 分 布 式 网 络 中 如 何 放置 或 定位 ， 它 们 也 被 认为 是 对 等 系统 的 前 身 。 

但 是 对 于 利用 互联 网 边缘 资源 的 对 等 系统 的 潜力 只 有 在 大 量 用 户 能 够 获得 宽带 网 络 连 接 ， 并且 保 
证 经 常 在 线 ， 合 他们 的 桌面 计算 机 变 成 一 个 适合 共享 资源 的 平台 时 才能 显现 出 来 。 最 早 的 对 等 系统 
1999 年 在 美国 出 现 ， 到 2004 年 年 中 的 时 候 ， 全 世界 具有 互联 网 宽带 连接 的 数量 已 经 超过 了 一 亿 
[Internet World Stats 2004], 

对 等 系统 和 应 用 的 开发 到 现在 已 经 经 历 了 三 代 。 第 一 代 是 从 提供 音乐 文件 交换 服务 的 Napster 开始 
[OpenNap 2001] ， 我 们 将 在 下 节 描 述 它 。 第 二 代 文 件 共享 应 用 能 够 提供 更 大 的 伸缩 性 、 可 以 匿名 使 用 、 
具有 容错 机 制 ， 典 型 的 软件 包括 Freenet [ Clarke et al. 2000, freenetproject. org], Gnutella, Kazaa[ Lei- 
bowitz et al. 2003] 和 BitTorrent[ Cohen 2003 ] 。 

对 等 中 间 件 ”第 三 代 以 中 间 件 层 的 出 现 为 特征 ， 它 能 够 在 全 球 范围 内 管理 与 应 用 无 关 的 分 布 式 资 
源 。 一 些 研究 团队 已 经 完成 了 对 等 中 间 件 平台 的 开发 、 评 估 和 和 改良， 并 且 把 他 们 的 研究 成 果 部 署 到 一 
系列 的 应 用 服务 中 。 众 所 周知 的 、 深 度 开发 的 系统 包括 Pastry[ Rowstron and Druschel 2001 ] 、Tapestry 
[Zhao et al. 2004] 、CAN[ Ratnasamy et al. 2001]. 、Chord[ Stoica et al. 2001] 和 Kademlia[ Maymounkov and 
Mazieres 2002 | 。 i 

这 些 平台 可 以 把 资源 (数据 对 象 、 文 件 ) 放置 到 一 组 广泛 分 布 在 互联 网 中 的 计算 机 上 。 它 们 可 以 
代表 客户 进行 消息 路 由 ,减轻 客户 放置 资源 的 决策 负担 并 记录 要 访问 的 资源 的 行踪 。 与 第 二 代 系统 不 
同 的 是 ， 它 们 可 以 保证 使 用 不 超过 某 个 限制 数量 的 网 络 跳 数 正确 地 将 请 求 传 递 到 。 由 于 主机 并 不 总 是 
可 用 的 、 可 信 的 ， 以 及 对 负载 平衡 和 信息 存储 、 使 用 的 地 域 性 需求 ， 这 些 系统 以 结构 化 的 方式 把 资源 
的 副本 放 到 可 用 的 主机 上 。 

资源 可 以 用 一 个 全 局 唯一 标识 符 (globally unique identifier, GUID) 来 标识 ， 这 些 标识 符 通常 是 根 
据 资源 的 全 部 或 者 部 分 状态 计算 一 个 安全 散 列 码 来 获得 的 〈 见 11.4.3 节 )。 通 过 使 用 安全 散 列 码 ， 使 
得 资源 本 身 能 够 进行 “自我 验证 ”一 一 客户 接收 资源 时 可 以 检查 散 列 码 的 有 效 性 。 这 样 可 以 避免 资源 
被 不 信任 的 结 点 (资源 有 可 能 存储 在 这 个 结 点 上 ) 纂 改 。 但 是 这 个 技术 要 求 资源 的 状态 不 能 改变 ， 因 
为 资源 状态 的 改变 将 会 产生 一 个 不 同 的 安全 散 列 值 。 因 此 ， 对 等 存储 系统 本 质 上 适合 不 可 变 对 象 的 存 
储 ( 例 如 ， 音 乐 或 视频 文件 ) 。 这 些 系 统 若 用 于 存储 可 变 对 象 ， 会 遇 到 更 大 的 挑战 ， 不 过 这 些 挑战 可 
以 通过 增加 一 些 可 信和 服务 器 来 解决 ， 这 些 服务 器 管理 可 变数 据 的 一 系列 版 本 ， 并 确定 当前 的 版 本 〈 例 
如 ，10. 6.2 节 和 10. 6. 3 节 将 介绍 的 OceanStore 和 Tvy) 。 

若 将 对 等 系统 应 用 于 要 求 资源 有 较 高 可 用 性 的 场合 ， 那 么 需要 进行 精心 的 设计 ， 以 免 所 有 对 象 副 
本 同时 不 可 用 。 如 果 对 象 被 存储 在 一 组 相似 的 计算 机 中 〈 拥 有 者 、 地 理 位 置 、 管 理 方式 、 网 络 连接 、 
国家 或 者 管辖 区 均 相 同 ) ， 那 么 具有 一 定 的 风险 。 使 用 随机 分 布 的 GUID 可 使 对 象 的 副本 随机 分 布 到 底 
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层 的 网 络 结 点 中 ， 从 而 降低 这 种 风险 。 如 果 底 层 网 络 跨越 了 全 球 的 很 多 组 织 ， 那么 这 种 资源 及 其 副本 
同时 不 可 用 的 风险 将 会 大 大 降低 。 

覆盖 路 由 与 IP 路 由 乍 一 看 ， 覆 盖 层 上 的 路 由 和 构成 互联 网 通信 机 制 基 础 的 全 数据 包 路 由 ( 参 
见 3.4.3 节 ) 有 很 多 相似 点 。 因 此 ， 很 自然 会 有 “为 什么 在 对 等 系统 中 还 需要 一 个 应 用 层 路 由 机 制 ?” 
的 问题 。 这 个 问题 的 答案 可 以 参考 图 10-1 中 列 出 的 几 个 不 同 点 。 有 人 可 能 会 认为 这 些 不 同 点 来 自作 为 
互联 网 主 协议 的 IP 协议 的 遗留 特性 ， 但 是 遗留 特性 的 影响 太 大 ， 以 至 于 我 们 在 更 直接 地 支持 对 等 应 用 
的 过 程 中 无 法 克服 它们 。 











应 用 层 路 由 覆盖 


IPv4 可 寻 址 结 点 的 数量 的 上 界 是 22 。IPv6 的 | ”对 等 系统 可 以 寻 址 到 更 多 的 对 象 。 
地 址 空间 是 非常 大 的 〈212 ) 。 但 是 在 两 个 版 本 | GUID 的 名 字 空 间 非 常 大 且 扁 平 
中 ， 地 址 空间 都 是 分 等 级 构造 的 ， 由 于 管理 上 | ( >2”)， 人 允许 可 使 用 的 空间 更 大 


的 需求 ， 大 量 的 地 址 已 经 被 预先 分 配 了 
路 由 器 上 的 负载 由 网 络 拓扑 以 及 相关 的 流量 | ”对 象 放置 的 位 置 可 以 随机 化 ， 因 此 流 












































模型 确定 量 模 型 与 网 络 拓扑 是 不 相关 的 
网 络 动态 性 (对 象 / 结 | ”下 路 由 表 是 基于 常量 时 间 (1 小 时 ) 按 尽力 | ”路 由 表 可 以 同步 或 者 异步 更 新 〈 仅 带 
点 的 添加 /删除 ) 而 为 方式 进行 异步 更 新 的 有 秒 级 的 延迟 ) 
容错 IP 的 管理 者 将 元 余 引 进 到 IP 网 络 设计 中 , 当 | ”路 由 和 对 和 象 引 用 可 以 n 次 复制 ， 从 而 
一 台 路 由 器 或 网 络 连接 失效 时 ， 确 保 容错 度 。n | 保证 在 ”个 结 点 或 网 络 链接 失效 时 的 容 
倍 复制 的 开销 很 高 错 能 力 
目标 识别 每 个 四 地址 唯一 地 映射 到 一 个 目标 结 点 上 消息 可 以 路 由 给 目标 对 象 的 最 近 副本 
安全 性 和 匿名 性 只 有 当 所 有 结 点 都 是 可 信 的 时 候 ， 寻 址 才 是 | ”甚至 可 以 在 有 限 信任 的 环境 中 ， 获 得 
安全 的 。 地 址 的 拥有 者 不 能 浇 名 安全 性 。 可 以 提供 一 定 程度 的 匿名 性 























图 10-1 IP 路 由 和 对 等 应 用 中 的 覆盖 路 由 的 不 同 点 


分 布 式 计算 ”利用 终端 用 户 空闲 的 计算 资源 一 直 是 开发 者 颇 有 兴趣 并 付 诸 实 验 的 主题 。 最 早 是 在 
Xerox PARC[ Shoch and Hupp 1982] 个 人 计算 机 上 开展 的 这 项 工作 ， 说 明 在 连 入 同一 个 网 络 的 约 100 台 
个 人 计算 机 上 ， 通 过 运行 后 台 进 程 来 执行 松 耦 合计 算 密 集 型 任务 是 可 行 的 。 最 近 ， 更 多 的 计算 机 用 于 
进行 几 个 科学 计算 任务 ， 这 些 科学 计算 都 需要 几乎 无 限 数量 的 计算 资源 。 

在 这 类 应 用 中 最 著名 的 是 SETI@ home MA [Anderson et al. 2002] ， 它 是 外 星 智慧 搜索 工程 的 一 部 
分 。SETI@ home 项 目 把 数字 射电 望远镜 采集 到 的 数据 流 分 割 成 107 秒 一 个 工作 单元 ， 其 中 每 个 单元 的 
大 小 约 为 330KB ， 然 后 把 它们 分 发 给 志愿 提供 计算 资源 的 客户 计算 机 。 每 个 工作 单元 将 元 余地 分 发 给 
3 ~4 个 计算 机 ， 以 免 某 些 结 点 发 生 错 误 或 存在 恶意 的 结 点 ， 这 样 还 可 以 检查 到 重要 的 信号 模式 。 由 一 
台 服 务 器 负责 与 所 有 的 客户 通信 ， 并 且 由 该 服务 器 分 发 工作 单元 ， 并 且 最 后 协调 各 个 客户 的 结果 。 
Anderson 等 [2002] 指出 ,到 2002 年 8 月 ,已 经 有 大 约 391 万 台 个 人 计算 机 参与 到 SETIG@ home 项 目 中 
来 ， 它 们 处 理 完 成 了 2. 21 亿 个 工作 单元 ， 这 个 工作 量 如 果 让 具有 每 秒 27. 36 万 亿 次 运算 能 力 的 巨型 计 
算 机 来 工作 ， 它 也 需要 12 个 月 直到 2002 年 7 月 才能 完成 。 这 个 结果 在 当时 创造 了 最 大 的 单个 计算 量 
的 记录 。 

SETI@ home 计算 是 不 同 寻常 的 ， 这 是 因为 当 客户 计算 机 处 理工 作 单元 的 时 候 ， 它 们 之 间 不 涉及 任何 
通信 和 相互 协调 ; 而 当 客 户 和 服务 器 都 可 用 时 ， 计 算 结果 就 以 一 条 短 消 息 的 方式 从 客户 传递 到 中 心服 务 
器 。 其 他 一 些 类 似 的 科学 计算 任务 ， 如 大 素数 的 搜寻 、 暴 力 破 解密 码 等 ， 都 可 以 利用 类 似 的 方式 解决 。 
但 是 如 果 想 把 互联 网 上 的 计算 资源 应 用 于 更 广泛 的 任务 ， 那 么 就 得 依靠 一 个 分 布 式 平台 ， 这 个 平台 能 够 
支持 数据 共享 并 大 范围 内 实现 计算 机 间 的 相互 协调 。 这 是 网 格 系统 的 目标 ， 我 们 将 在 19 章 讨论 网 格 。 

在 本 章 中 , 我 们 只 关注 现 有 的 在 对 等 网 络 环境 中 用 于 数据 共享 的 分 布 式 系统 和 算法 。 在 10.2 节 
中 ,我 们 将 总 结 Napster 的 设计 并 回顾 了 从 中 得 到 的 经 验 。 在 10. 3 节 中 ， 我 们 将 描述 对 等 中 间 件 层 的 
基本 需求 。 在 之 后 的 几 节 中 ， 我 们 将 介绍 对 等 中 间 件 平台 的 设计 和 应 用 ， 其 中 10. 4 节 会 给 出 一 个 抽象 
的 规约 ，10, 5 节 对 两 个 已 经 完全 开发 好 的 例子 加 以 详细 描述 ，10. 6 节 将 给 出 这 两 个 例子 的 一 些 应 用 。 
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10.2 Napster 及 其 遗留 系统 


对 等 系统 的 第 一 个 应 用 是 数字 音乐 文件 的 下 载 ， 在 这 个 应 用 中 出 现 了 在 全 球 范围 内 可 伸缩 的 信息 


存储 和 检索 服务 的 需求 。Napster 文件 共享 系统 [ OpenNap 2001] 为 用 户 提供 了 共享 文件 的 手段 ， 它 也 
第 一 次 向 人 们 展示 了 对 等 解决 方案 的 必要 性 和 可 行 性 。Napster 自 1999 年 出 现 以 后 ， 很 快 在 音乐 文件 
交换 领域 得 到 广泛 应 用 。 高 峰 的 时 候 ， 有 几 百 万 注册 用 户 ， 有 几 千 人 同时 交换 音乐 文件 。 


Napster 的 体系 结构 包括 集中 式 索 引 ， 但 是 文件 由 用 户 提供 ， 这 些 文件 存储 在 用 户 的 个 人 计算 机 


上 ， 并 且 能 够 被 访问 。 图 10-2 中 的 步 又 说 明了 Napster 操作 的 方法 。 注 意 在 第 5 步 ， 客 户 把 他 的 计算 机 
上 可 用 的 音乐 文件 以 一 个 链接 的 方式 传送 到 Napster 文件 索引 服务 器 上 ， 这 样 他 就 把 自己 的 音乐 文件 添 
加 到 共享 资源 池 中 了 。 从 中 可 以 看 出 ，Napster 的 动机 和 成 功 的 关键 就 是 通过 互联 网 向 用 户 提供 一 个 巨 


大 的 、 广 泛 分 布 的 、 对 用 户 可 用 的 文件 集 ; 通过 提供 对 “处 于 互联 网 边缘 上 共享 资源 ”的 访问 ， 它 也 


兑现 了 Shirky 的 宣言 。 
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图 10-2 Napster: 对 等 文件 共享 (采用 了 一 个 集中 式 的 、 可 复制 的 索引 ) 
由 于 Napster 在 某 些 方面 〈 例 如 ， 数 字 编 码 音乐 ) 涉及 相应 的 版 权 问题 ， 它 的 服务 提供 者 遭 到 了 版 


权 拥 有 者 的 起 诉 ， 最 终 由 于 法 律 原因 ，Napster 被 迫 关闭 (参见 下 面 的 “对 等 系统 与 版 权 归 属 问题 ” ) 。 











对 等 系统 与 版 权 归 属 问题 

Napster 的 开发 者 认为 他 们 不 应 承担 侵害 所 有 者 版 权 的 责任 ， 因 为 他 们 没有 参与 复制 过 程 ， 复 
制 过 程 完全 是 在 用 户 的 机 器 之 间 完 成 的 。 但 是 最 终 他 们 败诉 了 ， 因 为 索引 服务 器 被 认为 是 复制 过 程 
的 本 质 部 分 。 既 然 索 引 服务 器 的 地 址 是 众所周知 的 ， 那 么 它们 的 经 营 者 就 不 能 保持 匿名 ， 结 果 他 们 
就 成 了 法 律 诉讼 中 的 目标 。 

一 个 更 彻底 的 分 布 式 文件 共享 系统 也 许可 以 更 好 地 分 离 法 律 责任 ， 如 果 可 能 ， 把 法 律 责任 分 散 
给 所 有 的 Napster 用 户 ， 这 将 使 得 法 律 索赔 变 得 异常 困难 。 无 论 人 们 对 共享 版 权 保护 的 资源 的 文件 复 
制 的 合法 性 持 何 种 观点 ， 在 一 些 应 用 环境 中 ， 匿 名 的 客户 和 服务 器 是 有 其 社会 、 政 治 的 合法 性 理由 
的 。 当 要 应 付 审查 机 构 的 审查 和 在 一 个 压制 型 社区 或 组 织 中 保持 个 人 言论 自由 时 ， 匿 名 就 成 为 最 好 
的 手段 。 

众所周知 ， 在 社会 政治 危机 时 代 ，Email 和 Web 站 点 在 获得 公众 认 知 方面 扮演 了 重要 角色 ; 
如 果 作 者 可 以 以 匿名 方式 获得 保护 ， 那 么 他 们 扮演 的 角色 还 可 以 获得 进一步 的 延伸 。Whistle- blo- 
wing 是 一 个 相关 的 例子 : Whistle-blower 是 一 个 雇员 ， 他 可 以 不 暴露 身份 而 向 上 级 主管 部 门 举报 他 
们 的 雇主 所 做 的 坏事 ， 从 而 不 必 害怕 雇主 们 的 制裁 或 者 被 他 们 解雇 。 在 某 些 环境 下 ， 通 过 匿名 来 保 
护 这 类 行为 是 合理 的 。 
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如 何 使 共享 数据 以 及 其 他 资源 的 访问 者 和 提供 者 具有 匿名 性 是 对 等 系统 设计 者 关心 的 一 个 方面 。 
在 多 结 点 系统 中 ， 资 源 请 求 和 结果 返回 的 路 由 可 以 足够 曲折 ， 从 而 隐藏 它们 的 来 源 ; 文件 的 内 容 也 可 
以 分 布 在 多 个 结 点 上 ， 从 而 分 散 责 任 使 得 资源 可 用 。 抵 抗 多 数 流量 分 析 机 制 的 匿名 通信 机 制 已 经 存在 
[ Goldschlag et al. 1999 ] 。 如 果 在 文件 存储 到 服务 器 之 前 对 它们 加 密 ， 那 么 服务 器 的 所 有 者 看 似 可 以 否 
认 他 们 了 解 内 容 。 但 是 这 些 匿 名 技术 增加 了 资源 共享 的 开销 ， 而 且 最 近 的 研究 表明 : 在 应 对 网 络 攻击 
方面 ， 可 用 的 匿名 技术 在 面 对 某 些 攻 击 时 是 脆弱 的 【Wright et al. 2002] 。 

Freenet[ Clarke et al. 2000] 和 FreeHaven[ Dingledine et al. 2000] 项 目 都 强调 提供 互联 网 范围 的 文件 服 
务 ， 该 服务 能 为 文件 的 提供 者 和 用 户 提 供 匿 名 性 。Ross Anderson 推荐 使 用 Eternity Service [ Anderson 
1996] ， 它 是 一 项 存储 服务 ， 通 过 避免 各 种 意外 的 数据 丢失 和 拒绝 服务 攻击 ， 提 供 长 期 的 数据 可 用 性 保 
障 。 对 于 可 印刷 的 信息 ， 出 版 图 书 是 一 种 永久 不 变 的 模式 〈 事 实 上 ， 一 旦 图 书 出 版 并 且 已 经 被 分 发 到 世 
界 上 各 个 组 织 机 构 的 图 书馆 中 ， 我 们 将 不 可 能 对 它 进行 删除 操作 ) ; 可 是 对 于 电子 出 版 物 来 说 ， 它 不 太 
容易 像 图 书 出 版 一 样 能 抵抗 审查 或 压制 。 因 此 ，Anderson 认为 这 样 的 服务 是 必要 的 。 为 了 确保 存储 的 一 
致 性 ，Anderson 提 出 了 技术 上 以 及 经 济 上 的 需求 ， 并 且 还 指出 对 于 信息 的 持久 存储 而 言 ， 匿 名 是 必要 的 ， 
因为 它 能 够 防备 法 律 起 诉 ， 同 样 它 还 能 避免 非法 操作 ， 如 贿赂 或 者 攻击 数据 的 创造 者 、 拥 有 者 或 者 持 有 者 。 

从 Napster 中 得 到 的 经 验 ”Napster 展示 了 构造 一 个 有 用 的 大 规模 服务 的 可 行 性 ， 该 服务 依靠 几乎 
整个 互联 网 上 普通 用 户 的 数据 和 计算 机 。 为 了 避免 单个 用 户 (例如 ， 第 一 个 提供 排行 榜 热门 歌曲 的 用 
户 ) 的 计算 资源 和 网 络 连 接 的 拥塞 ， 当 给 一 个 查询 歌曲 的 客户 分 配 服务 器 时 ，Napster 将 网 络 的 地 域 性 
也 考虑 进来 (客户 与 服务 器 之 间 的 跳 数 ) 。 这 种 简单 的 负载 分 配 机 制 使 得 服务 可 以 伸缩 ， 从 而 满足 大 
量 用 户 的 需求 。 

局 限 性 : Napster 为 所 有 可 用 的 音乐 文件 建立 一 个 (可 复制 的 ) 统一 索引 。 对 这 种 应 用 来 说 ， 并 不 
强烈 要 求 保持 副本 之 间 的 一 致 性 ， 所 以 不 会 影响 服务 性 能 。 但 是 对 其 他 应 用 ， 这 种 方法 还 是 有 局 限 性 
的 。 除 非 数 据 对 象 的 访问 路 径 是 分 布 的 ， 否 则 对象 的 发 现 和 定位 将 可 能 变 成 系统 的 瓶颈 。 

应 用 依赖 性 : Napster 利用 了 文件 共享 应 用 的 下 列 特征 并 针对 这 些 特征 进行 设计 : 

© 音乐 文件 的 内 容 从 来 不 会 被 更 新 ， 避 免 了 文件 在 更 新 后 与 其 副本 之 间 保 持 一 致 性 的 需求 。 

© 不 需要 保证 单个 文件 的 可 用 性 一 一 如 果 一 个 音乐 文件 暂时 不 可 用 ， 那 么 用 户 可 以 以 后 再 下 载 。 

这 就 减少 了 对 用 户 计算 机 和 互联 网 连接 的 依赖 性 。 


10.3 ”对 等 中 间 件 


在 设计 对 等 应 用 时 ， 一 个 关键 问题 是 提供 一 个 良好 的 机 制 ， 它 能 够 保证 客户 无 论处 于 互联 网 的 哪 
个 位 置 都 能 快速 、 可 靠 地 访问 数据 资源 。 为 此 ，Napster 通过 维护 可 用 文件 的 统一 索引 来 提供 文件 所 在 
的 主机 的 网 络 地 址 。 第 二 代 对 等 文件 存储 系统 (如 Gnutella 和 Freenet) ， 采 用 了 分 区 和 分 布 式 索引 算 
法 ,不 过 不 同 的 系统 其 算法 各 有 不 同 。 

在 出 现 对 等 范 型 之 前 ， 在 某 些 服务 中 就 存在 定位 的 问题 。 例 如 ，Sun NFS 借助 每 个 客户 上 的 虚拟 
文件 系统 抽象 层 来 解决 这 个 问题 ， 它 根据 虚拟 文件 引用 〈 即 * 结 点 ， 人 参见 12. 3 节 ) 来 处 理 对 文件 的 访 
问 请 求 ， 这 里 被 请 求 的 文件 可 能 位 于 多 个 服务 器 上 。 这 种 解决 方案 要 在 文件 分 布 模式 或 者 服务 器 改变 
时 ， 在 每 个 客户 上 做 大 量 的 预 配置 工作 和 人 工 干预 。 显 然 ， 这 样 的 服务 伸缩 性 差 ， 仅 局 限于 由 单个 组 
织 管理 的 服务 。AFS (12.44%) 也 具有 类 似 的 特点 。 

对 等 中 间 件 系统 用 于 满足 被 对 等 系统 和 应 用 管理 的 分 布 式 对 象 的 自动 放置 及 其 定位 需求 。 

功能 性 需求 ”对 等 中 间 件 的 功能 是 简化 跨越 多 主机 的 服务 的 构建 ， 这 些 主机 可 能 位 于 广阔 的 分 布 
式 网 络 上 。 为 了 实现 这 个 目标 ， 它 必须 能 够 使 客户 可 以 定位 单个 资源 〈 对 相应 的 服务 来 说 ， 该 资源 是 
可 用 的 ) 的 位 置 并 和 该 资源 通信 ， 即 使 这 些 资源 分 布 在 多 个 主机 上 。 其 他 重要 的 需求 还 包括 : 能 够 随 
意 地 添加 新 资源 或 者 删除 旧 资 源 ; 能 够 添加 主机 或 删除 主机 。 与 其 他 中 间 件 一 样 ， 对 等 中 间 件 应 该 能 
够 向 应 用 程序 员 提 供 一 个 简单 的 编程 接口 ， 该 编程 接口 不 应 依赖 于 应 用 操纵 的 分 布 式 资源 的 类 型 。 

非 功能 性 需求 ”为 了 高 效 运行 ， 对 等 中 间 件 还 必须 解决 以 下 非 功能 性 需求 [of Kubiatowcz 2003 ] ; 

全 球 可 伸缩 性 : 对 等 应 用 的 一 个 目标 就 是 利用 互联 网 上 大 量 主机 的 硬件 资源 。 因 此 对 等 中 间 件 必 
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须 支 持 能 够 访问 存放 于 数 万 台 或 数 十 万 台 主 机 上 的 数 百 万 计 的 资源 。 

负载 平衡 : 当 所 设计 的 系统 使 用 了 大 量 计算 机 时 ， 它 的 性 能 将 依赖 于 工作 负载 的 均衡 分 布 。 对 于 我 
们 正在 考虑 的 系统 ， 可 以 通过 随机 的 资源 放置 以 及 增加 频繁 使 用 的 热门 资源 的 副本 来 实现 负载 均衡 。 

优化 相 邻 结 点 间 的 本 地 交互 ; 结 点 之 间 的 “网 络 距 离 ” 对 于 单个 交互 (如 客户 请 求 访问 资源 ) 的 
时 间 延 迟 有 很 大 的 影响 ， 而 且 对 于 网 络 流量 也 会 有 影响 。 对 等 中 间 件 应 该 能 够 将 资源 放置 在 靠近 经 常 
访问 它们 的 结 点 。 

适应 高 度 动态 的 主机 可 用 性 : 大 多 数 对 等 系统 都 允许 主机 在 任何 时 候 自 由 地 加 入 或 退出 系统 。 对 等 
系统 中 的 主机 和 网 段 并 不 专属 于 一 个 组 织 机 构 ， 因 此 它们 的 可 靠 性 和 能 否 持续 参与 提供 服务 也 不 能 得 到 
保证 。 构 建 对 等 系统 的 一 个 主要 挑战 是 : 尽管 有 上 述 的 不 利 因素 ， 系 统 仍 能 够 提供 可 靠 的 服务 。 当 主机 
加 入 系统 的 时 候 ， 这 些 主机 必须 集成 到 系统 中 ， 并 且 负 载 必须 重新 分 布 ， 从 而 利用 新 加 入 的 主机 的 资源 。 
当主 机 自愿 或 非 自 愿 地 退出 系统 时 ， 系 统 必须 能 够 检测 到 它们 退出 ， 并 且 能 够 重新 分 配 负载 和 资源 。 

对 对 等 应 用 和 系统 (如 Gnutella 和 Overnet) 的 研究 表明 : 参与 到 系统 中 的 主机 相当 多 [Saroiu et 
al. 2002, Baghwan et al. 2003], Overnet 对 等 文件 共享 系统 在 互联 网 上 拥有 85 000 台 活 动 主机 。Baghwan 
等 在 七 天 时 间 内 从 系统 中 随机 抽取 1468 台 主 机 ， 测 得 它们 的 平均 会 话 时 间 为 135 分 钟 〈 中 值 为 79 分 
钟 ) ， 其 中 有 260 ~ 650 台 主 机 在 任何 时 候 都 是 可 用 的 (一 个 会 话 表 示 一 段 时 间 ， 在 这 段 时 间 内 主机 是 
可 用 的 ， 没 有 自愿 或 者 非 自 愿 地 退出 系统 ) 。 

另 一 方面 ， 微 软 的 研究 者 们 从 连接 到 微软 公司 网 络 上 的 主机 中 随机 地 抽取 了 20 000 台 计 算 机 ， 测 
得 它们 的 平均 会 话 时 间 为 37.7 小 时 ， 其 中 有 14700 ~ 15 600 台 主 机 在 测试 期 间 一 直 是 可 用 的 【Castro et 
al. 2003], 。 上 述 测试 基于 Farsite 对 等 文件 系统 的 可 行 性 研究 [Bolosky et al. 2000] 。 这 些 研 究 所 获得 的 
数字 有 巨大 的 出 人 ， 这 主要 是 因为 个 人 互联 网 用 户 和 公司 〈 例 如 ， 微 软 公 司 ) 网 络 用户 在 行为 和 网 络 
环境 方面 有 所 不 同 。 

-能够 在 具有 不 同 信任 体系 的 环境 下 保持 数据 的 安全 性 : 在 一 个 全 球 范围 的 系统 中 ， 参 与 其 中 的 主 
机 有 着 不 同 的 归属 ， 信 任 体系 必须 通过 利用 授权 和 加 密 机 制 来 建立 ， 从 而 确保 信息 的 完整 性 和 保密 性 。 

匿名 、 可 否认 能 力 和 对 审查 的 抵抗 : 我 们 注意 到 (1110.2 节 关 于 版 权 的 讨论 ) ， 在 许多 要 求 抵制 
审查 机 构 审查 的 场合 ， 能 和 否 给 予 数据 的 持 有 者 和 接收 者 提供 匿名 属于 正当 的 关注 。 因 此 ， 一 个 相关 的 
技术 需求 就 是 能 够 保证 数据 的 提供 者 或 持 有 者 可 以 合理 地 推 印 责任 。 对 等 系统 存在 大 量 主机 ， 这 有 助 
于 获得 上 述 性 质 。 

” 综 上 所 述 , 设计 一 个 对 等 中 间 件 层 来 支持 A 的 路 由 信息 。 D 的 路 由 信息 

全 球 规 模 的 对 等 系统 是 一 个 难题 。 可 伸缩 性 和 / \ 

可 用 性 需求 使 得 在 所 有 的 客户 结 点 上 维持 一 个 
数据 库 来 提供 所 有 感 兴趣 的 资源 AR) 的 位 
置 是 不 可 行 的 。 

对 象 的 位 置信 息 必须 进行 分 区 并 且 分 布 于 
整个 网 络 上 。 每 个 结 点 都 负责 维护 名 字 空 间 中 
的 一 部 分 结 点 位 置信 息 和 对 象 位 置信 息 ， 还 应 
该 对 整个 名 字 空 间 的 拓扑 结构 有 一 个 整体 上 的 
了 解 〈 见 图 10-3)。 在 面 对 主机 不 稳定 的 可 用 性 





B 的 路 由 信息 C 的 路 由 信息 


和 时 断 时 续 的 网 络 连 接 的 时 候 ， 这 些 知 识 的 大 图 10-3 路 由 覆盖 中 的 信息 分 布 
量 复制 对 确保 系统 的 可 靠 性 是 必要 的 。 在 下 面 我 们 将 描述 的 系统 中 ， 常 用 的 复制 因子 高 达 16。 
10.4 路 由 覆盖 


开发 满足 前 节 概 述 的 功能 和 非 功能 需求 的 对 等 中 间 件 是 一 个 非常 活路 的 研究 领域 ， 现 在 已 经 开发 
出 几 个 重要 的 中 间 件 系统 。 在 本 章 中 ， 我 们 将 详细 描述 其 中 的 两 个 。 

在 对 等 系统 中 ， 路 由 覆盖 (routing overlay) 是 一 个 著名 的 分 布 式 算法 ， 它 负责 定位 结 点 和 对 象 。 
顾名思义 ， 中 间 件 表现 为 一 层 的 形式 ， 该 层 负责 把 来 自 客 户 的 请 求 路 由 到 请 求 所 针对 的 对 象 所 在 的 主 ， 
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机 上 。 感 兴趣 的 对 象 可 放 到 网 络 中 的 任何 结 点 ， 然 后 将 它 重 定位 ， 这 个 过 程 不 需要 任何 客户 的 参与 。 
它 之 所 以 称 为 覆盖 ， 是 因为 它 在 应 用 层 实现 了 一 个 路 由 机 制 ， 但 这 个 路 由 机 制 与 部 署 在 网 络 层 的 路 由 
机 制 ( 如 下 路 由 ) 相 分 离 。 这 种 管理 和 定位 复制 对 象 的 方法 首先 在 Plaxton 等 [1997] 的 具有 突破 性 
的 论文 中 被 分 析 ， 并 证 明 在 含有 大 量 结 点 的 网 络 中 该 方法 是 高 效 的 。 

路 由 覆盖 通过 将 请 求 路 由 经 过 一 个 结 点 序列 和 利用 每 个 结 点 关于 目标 对 象 的 知识 ， 确 保 任意 一 个 
结 点 可 以 访问 任意 一 个 对 象 。 对 等 系统 通常 会 保存 一 个 对 象 的 多 个 副本 以 确保 对 象 的 可 用 性 。 在 这 种 
情况 下 ， 路 由 覆盖 会 维护 所 有 可 用 副本 的 位 置信 息 ， 并 和 且 将 请 求 传 递 到 距 敲 它 最 近 的 一 个 含有 相关 对 
象 拷贝 的 “ 活 ” 结 点 〈 即 未 失效 的 结 点 ) EE. 

用 于 识别 结 点 和 对 象 的 GUID 是 一 个 13.1.1 节 中 提 到 过 的 “ 纯 ” 名 字 的 例子 。 因 为 GUD 在 引用 
对 象 的 时 候 不 会 暴露 对 象 的 任何 位 置信 息 ， 所 以 它 也 称 为 不 透明 标识 符 。 

路 由 覆盖 的 主要 任务 如 下 : 

路 由 请 求 给 对 象 ; 一 个 客户 希望 调用 一 个 对 象 上 的 操作 ， 那 么 他 向 路 由 覆盖 提交 一 个 请 求 ， 请 求 
中 包含 相应 对 象 的 GUID ， 路 由 覆盖 把 这 个 请 求 路 由 到 一 个 含有 该 对 象 副本 的 结 点 上 。 

路 由 覆盖 还 必须 完成 其 他 一 些 任务 : 

插入 对 象 : 如 果 一 个 结 点 想 要 向 一 个 对 等 服务 中 添加 一 个 新 的 对 象 ， 那 么 它 可 以 通过 计算 得 到 该 
WRAY GUID 并 通知 路 由 获 盖 ， 路 由 覆盖 会 确保 所 有 其 他 客户 能 够 访问 到 这 个 对 象 。 

删除 对 象 : 当 客 户 请 求 从 服务 中 移 除 对 象 时 ， 路 由 覆盖 必须 使 这 些 对 象 不 再 可 用 。 

结 点 的 增加 和 移 除 : 结 点 〈 即 计算 机 ) 可 以 加 入 或 者 退出 服务 。 当 一 个 结 点 加 入 服务 时 ， 路 由 覆 
蔓 安 排 这 个 结 点 承担 其 他 一 些 结 点 的 责任 。 当 一 个 结 点 退出 时 (可 能 是 自愿 的 ， 也 可 能 是 因为 系统 或 
网 络 故障 造成 的 ) ， 它 原来 承担 的 责任 被 分 布 到 其 他 结 点 上 。 

一 个 对 象 的 GUID 是 根据 该 对 象 的 全 部 或 一 部 分 状态 通过 一 个 函数 计算 出 来 的 ， 这 个 值 很 有 可 能 
是 唯一 的 。 可 以 通过 尝试 使 用 同一 CUD 搜索 另外 的 对 象 来 验证 其 唯一 性 。 通 常 ， 用 一 个 散 列 函数 
(例如 ，SHA-1 算法 ,参见 11.4 节 ) 来 根 [GOD dai 
据 对 象 的 值 产生 对 象 的 GUID。 因 为 使 用 这 | data 被 存储 到 根据 该 GUID 确 定 的 所 有 负责 存储 该 对 象 的 结 点 上 。 
些 随 机 的 分 布 式 标 识 符 来 决定 对 象 的 放置 | remove(GUID) 

和 检索 对 象 ， 所 以 路 由 覆盖 系统 有 时 也 被 Oe Ea OS MARREN 

描述 为 分 布 式 散 列表 (Distributed Hash | 相关 结 点 中 运 回 和 该 GUID 相 关联 的 数据 。 

Table, DHT), 。 图 10-4 所 示 的 最 简单 的 API 

形式 反映 出 了 这 个 事实 。 在 这 个 API 中 ， 图 10-4 由 Pastry 上 的 PAST API 实现 的 分 布 式 散 列表 的 
put() 操 作 提交 一 个 数据 项 ， 该 数据 项 和 它 基本 编程 接口 

对 应 的 CUD 要 存储 在 一 起 。DHT 层 负 责 为 该 数据 项 选择 一 个 位 置 ， 然 后 存储 它 〈 以 及 它 的 副本 ， 以 
确保 可 用 性 ) ， 并 通过 get) 操作 来 对 它 进 行 访问 。 

分 布 式 对 象 定位 和 路 由 【〈Distributed Object Location and Routing, DOLR) 层 提 供 了 一 个 更 加 灵活 的 
API， 如 图 10-5 所 示 。 通 过 这 个 接口 ， 对 象 可 以 存储 到 网 络 中 的 任何 位 置 ，DOLR 层 负责 维护 对 象 
GUD 和 包含 该 对 象 副本 的 结 点 地 址 之 间 的 映射 。 具有 相同 GUID 的 对 象 可 以 被 复制 和 存储 在 不 同 的 主 
机 上 ， 路 由 覆盖 负责 把 请 求 路 由 到 最 近 的 可 用 副本 上 。 


publish(GUID) 

GUID 可 以 根据 对 象 〈 或 它 的 某 一 部 分 ， 例 如 它 的 名 字 ) 计算 得 出 。 

这 个 函数 使 得 执行 publish 操 作 的 结 点 成 为 与 该 GUID 对 应 的 对 象 的 主机 。 
unpublish(GUID) 

使 与 GUID 对 应 的 对 象 变 成 不 可 访问 状态 。 








sendToObj(msg, GUID, [n}) 
遵从 面向 对 象 的 规则 ， 为 了 访问 一 个 对 象 ， 发 一 个 调用 消息 给 它 。 这 个 消息 可 能 是 为 了 数据 传输 而 要 求 


打开 一 个 TCP 连 接 的 请 求 ， 或 者 也 可 能 是 一 条 包含 对 象 全 部 或 部 分 状态 的 消息 。 最 后 一 个 可 选 的 参数 [] 
《如 果 存 在 ) 要求 该 消息 发 送 给 相应 对 象 的 x 个 副本 。 





图 10-5 Tapestry 实现 的 分 布 式 对 象 定位 和 路 由 (DOLR〉 的 基本 编程 接口 
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在 DHT 模型 中 ,一 个 GUID 是 X 的 数据 项 将 被 存储 在 一 个 结 点 上 ， 这 个 结 点 的 GUID 在 数值 上 最 
接近 于 ;该 数据 项 的 副本 还 将 存储 到 7 个 主机 上 ， 这 些 主 机 的 GUID 在 数值 上 次 接近 于 也 ， 其 中 7 是 复 
制 因子 ， 以 确保 具有 较 高 的 可 用 性 。 在 DOLR 模型 中 ， 数 据 对 象 副本 的 位 置 是 在 路 由 层 外 确定 的 ， 每 
个 副本 的 主机 地 址 是 通过 publish() 操作 来 通知 DOLR 层 的 。 

图 10-4 和 图 10-5 列 出 的 编程 接口 都 是 基于 一 套 抽象 表示 ， 它 最 早 由 Dabek 等 [2003] 提出 ， 这 
也 表明 到 今天 为 止 ， 大 多 数 对 等 路 由 覆盖 实现 提供 的 功能 非常 相似 。 

路 由 覆盖 系统 的 设计 工作 开始 于 2000 年 ，2005 年 获得 收获 ， 目 前 已 经 成 功 开发 出 几 个 原型 并 加 以 
评估 。 对 这 些 原型 的 评估 显示 ， 它 们 的 性 能 和 可 靠 性 足以 使 它们 可 以 应 用 到 多 种 生产 环境 中 。 在 10.5 
节 ， 我 们 将 针对 其 中 的 两 个 原型 进行 详细 的 描述 ， Pastry 实现 了 一 个 与 图 10-4 类 似 的 分 布 式 散 列表 
API; Tapestry 实现 了 与 图 10-5 类 似 的 API, Pastry 和 Tapestry 都 利用 了 著名 的 前 级 路 由 (prefix routing) 
机 制 来 确定 基于 CUD 值 的 消息 的 传递 路 线 。 前 缀 路 由 对 对 象 的 CUID 应 用 一 个 二 进 制 掩 码 ， 即 在 每 一 
跳 后 ， 选 择 一 个 比 目 标 GUID 大 的 十 六 进 制 数字 值 做 这 个 掩 码 ， 从 而 缩小 搜索 下 一 个 结 点 的 范围 。( 这 
个 技术 也 被 应 用 于 IP 包 的 无 等 级 域 间 路 由 ， 相 关 概 述 见 3.4.3 节 。) 

此 外 ， 还 开发 了 其 他 几 种 路 由 方案 ,它们 利用 对 结 点 之 间距 离 的 不 同 度量 来 缩小 搜索 下 一 跳 的 范 
围 。Chordf Stoica et al. 2001] 根据 被 选择 结 点 和 目标 结 点 的 GUID 在 数值 上 的 不 同 做 出 选择 。CAN 
[ Ratnasamy et al. 2001 ] 将 结 点 放 人 d 维 空间 ， 并 使 用 d 维 空间 中 结 点 之 间 的 距离 。Kademlia[ May- 
mounkov and Mazieres 2002] 对 一 对 结 点 的 GUID 进行 异 或 操作 ， 用 所 得 到 的 值 来 表示 结 点 之 间 的 距离 。 
因为 异 或 操作 具有 对 称 性 ， 所 以 Kademlia 可 以 非常 容易 地 维护 参与 者 的 路 由 表 ; 而 且 参 与 者 收 到 的 请 
求 总 是 包含 在 它们 路 由 表 中 的 结 点 。 

GUD 不 是 人 可 读 取 的 ， 因 此 ， 客 户 应 用 必须 通过 搜索 请 求 或 一 些 以 资源 的 可 读 名 字 为 输入 的 索引 
服务 来 获得 他 们 感 兴趣 资源 的 GUID。 理 想 的 情况 下 ， 这 些 索引 也 以 对 等 方式 存储 ， 以 此 来 克服 Nap- 
ster 集中 式 索 引 的 弱点 。 但 是 对 简单 的 情形 ， 例 如 用 于 对 等 下 载 的 音乐 文件 或 者 电子 出 版 物 ， 可 以 简 
单 地 在 Web 页 面 上 索引 (参考 BitTorrent[ Cohen 2003] ) 。 在 BitTorrent 中 ， 一 次 Web 索引 搜索 形成 一 个 
存根 文件 ， 这 个 存根 文件 包含 所 需 资源 的 详细 信息 ， 包 括 该 资源 的 GUID 和 跟踪 器 (tracker) 的 URL, 
这 里 ， 跟 踪 器 是 一 个 保存 愿意 提供 该 文件 的 计算 机 的 最 新 网 络 地 址 列表 的 主机 (关于 BitTorrent 协议 的 
细节 参见 第 20 章 ) 。 

对 上 述 的 路 由 履 盖 ,读者 可 能 质疑 它 的 性 能 和 可 靠 性 。 对 于 这 些 问题 的 解答 ,我们 将 在 10. 5 节 通 
过 描述 一 些 实际 的 路 由 覆盖 系统 来 给 出 。 


10.5 路 由 覆盖 实例 研究 ，Pastry 和 Tapestry 


Pastry 和 Tapestry 均 采 用 前 缀 路 由 方法 。Pastry 是 消息 路 由 的 基础 设施 ， 它 已 经 被 部 署 到 多 个 应 用 
中 ,包括 PAST[ Druschel and Rowstron 2001] 和 Squirrel, Past 是 一 个 档案 文件 (不 可 变 文 件 ) 存储 系 
统 ， 它 以 分 布 式 散 列表 形式 实现 ， 具 有 图 10-4 所 示 的 API, Squirrel 是 一 个 对 等 Web 缓存 服务 ， 我 们 将 
在 10. 6. 1 节 中 描述 它 。Pastry 的 设计 直接 而 高 效 ， 因 此 它 是 一 个 可 供 我 们 详细 研究 的 很 好 的 例子 。 

Tapestry 是 我 们 将 在 10. 6. 2 节 描 述 的 OceanStore 存储 系统 的 基础 。 相 对 于 Pastry 来 说 ， 它 具有 更 复 
杂 的 体系 结构 ， 因 为 它 旨 在 提供 更 大 范围 内 的 定位 方法 。 我 们 将 在 10. 5. 2 节 介绍 Tapestry, 

我 们 还 在 10.5.3 节 查 看 了 另 一 种 无 结构 的 方法 ,仔细 了 解 了 Gnutella 采用 的 覆盖 风格 。 


10.5.1 Pastry 


Pastry[ Rowstron and Druschel 2001, Castro et al. 2002, FreePastry project 2004] 是 一 个 具有 我 们 在 
10.4 节 中 所 列 特点 的 路 由 覆盖 系统 。 能 够 通过 Pastry 访问 的 所 有 结 点 和 对 象 都 被 分 配 了 一 个 128 位 的 
GUID 值 。 每 个 结 点 都 有 一 个 公 钥 , 将 一 个 安全 的 散 列 函数 (例如 SHA-1， 参 见 11.4.3 节 ) 应 用 到 这 
个 公 钥 上 ， 通 过 计算 便 可 以 得 到 结 点 对 应 的 GUID。 而 对 于 对 象 来 说 (例如 文件 )， 它 们 的 GUID 的 获 
得 是 将 安全 的 散 列 函数 应 用 到 对 象 名 字 或 者 它们 的 部 分 存储 状态 上 。 得 到 的 GUID 具有 安全 散 列 值 的 
常见 特性 ， 也 就 是 说 ， 它 们 随机 分 布 到 区 间 [0, 27-1] 上 。 这 些 值 不 会 提供 任何 有 关 生 成 该 值 的 对 
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象 或 结 点 的 线索 ， 同 样 ， 不 同 的 结 点 或 对 象 之 间 的 GUID 发 生 冲 突 的 可 能 性 也 是 极 低 的 。( 如 果真 的 发 
生 了 冲突 ，Pastry 也 能 检测 到 并 采取 补救 措施 。) 

在 一 个 具有 六 个 参与 结 点 的 网 络 中 ，Pastry 路 由 算法 能 够 在 O(logN) 步 内 正确 地 将 消息 路 由 到 任 
何 GUID 对 应 的 地 址 上 。 如 果 GUID 标识 的 结 点 当前 处 于 活路 状态， 那么 消息 将 直接 发 送 给 这 个 结 点 ， 
否则 ， 消 息 将 发 送 给 数值 上 最 接近 于 该 GUD 且 处 于 活动 状态 的 结 点 。 处 于 活动 状态 的 结 点 负责 处 理 
发 往 它们 的 数值 意义 上 的 邻居 结 点 的 请 求 。 

路 由 过 程 涉及 使 用 底层 传输 层 协 议 (一般 是 UDP) 将 消息 传输 到 一 个 “更 接近 ”目的 地 的 Pastry 
结 点 上 去 。 但 应 该 注意 ， 这 里 提 到 的 “接近 ”是 指 在 一 个 完全 人 造 的 空间 (CUD 构成 的 空间 ) 中 接 
近 。 跨 越 互 联网 在 两 个 Pasty 结 点 之 间 实 际 传输 一 个 消息 可 能 需要 若干 IP 跳 数 。 为 了 尽 可 能 降低 不 必 
要 的 扩展 传输 路 径 带 来 的 风险 ，Pastry 在 为 每 个 结 点 建立 路 由 表 时 ， 使 用 了 一 个 本 地 性 指标 ， 这 个 指 
标 基 于 底层 网 络 的 网 络 距 离 (例如 ， 跳 数 或 者 往返 的 传输 延迟 ) 来 选择 合适 的 邻居 结 点 。 

广泛 分 布 的 数 以 千 计 的 主机 均 可 以 参与 到 Pasty 的 覆盖 中 。 它 是 完全 自治 的 。 当 新 的 结 点 加 入 到 
履 盖 中 时 ， 它 们 可 以 从 已 有 成 员 通 过 0(logN) 条 消息 获得 必要 的 数据 来 构建 它们 的 路 由 表 或 者 其 他 所 
需 的 状态 ， 其 中 入 是 参与 到 获 盖 中 的 主机 的 数量 。 当 一 个 结 点 失效 或 者 退出 时 ， 其 他 结 点 能 够 检测 到 
它 的 消失 ， 并 且 用 相似 数量 的 消息 共同 协作 重新 配置 ， 以 反映 路 由 结构 上 的 变动 。 

路 由 算法 ”完整 的 路 由 算法 涉及 每 个 结 点 上 路 由 表 的 使 用 以 便 高 效 地 路 由 消息 ， 但 是 为 了 解释 算 
法 ， 我 们 用 两 个 阶段 来 描述 路 由 算法 。 第 一 阶段 描述 一 个 简化 形式 的 算法 ， 它 能 够 在 不 用 路 由 表 的 情 
况 下 正确 地 路 由 消息 ， 但 是 效率 很 低 。 在 第 二 阶段 ， 我 们 将 描述 完整 的 路 由 算法 ， 它 能 够 将 一 个 请 求 
以 O(logN) 条 消息 的 代价 路 由 到 任何 结 点 上 。 

第 一 阶段 : 每 个 活跃 结 点 都 保存 一 个 叶子 集合 (leaf set) ， 叶 子 集合 是 一 个 大 小 为 21 KEEL, L 
包含 和 当前 结 点 GUD 在 数值 上 接近 的 2 个 (i 个 
大 于 ,，! 个 小 于 ) 其 他 结 点 的 GUID 和 下 地址 。 当 
结 点 加 入 或 者 离开 网 络 的 时 候 ，Pastry 负责 维护 结 
点 的 叶子 集合 。 即 使 一 个 结 点 出 现 故障 ， 仍 可 以 
在 很 短 的 时 间 内 修正 相应 结 点 的 叶子 集合 (故障 
恢复 将 在 下 面 讨论 ) 。 因 此 ，Pastry 系统 的 不 变 式 
是 : 叶子 集合 反映 了 系统 的 当前 状态 ， 即 使 故障 
-到达 某 个 最 大 故障 率 时 ,它们 仍 能 收敛 于 当前 
状态 。 

GUID 空间 是 被 当做 一 个 环 来 处 理 的 ， 比 0 小 
的 GUID 邻居 是 2”- 1。 图 10-6 给 出 了 分 布 在 这 
个 环形 地 址 空间 上 的 活跃 结 点 。 因 为 每 个 叶子 集 
合 包含 的 是 与 当前 结 点 直接 相 邻 的 结 点 的 GUID 和 
IP 地 址 ， 所 以 一 个 Pastry 系统 若 具 有 正确 的 叶子 
集合 并 且 叶 子 集合 的 大 小 至 少 为 2， 那 么 可 按 下 述 





0| FFFFF---F(2!8-1) 





圆 点 代表 活跃 结 点 。 空 间 可 视 为 环形 ， 结 点 0 与 结 喜 


的 方式 把 消息 路 由 到 任意 CUD: 对 于 任意 结 点 4， 
当 它 收 到 一 条 目的 地 址 是 厂 的 消息 到 时 ， 它 首先 
将 自己 的 GUID Al D 的 GUID 比较 ,然后 再 将 叶子 


集合 中 的 GUID A D 的 GUID 比较 , RA, HAM 


HEE D A GUID 在 数值 上 最 接近 的 结 点 。 


(28-1) 相 邻 。 这 个 图 描述 了 只 使 用 邻接 集合 信息 , 从 
结 点 65A1FC 路 由 一 条 消息 到 结 点 D46A1C 的 过 程 ， 此 处 假设 
邻接 集合 的 大 小 是 8 (1=4 ) 。 这 是 一 个 退化 的 路 由 类 型 ， 

它 的 伸缩 性 很 差 ， 因 此 并 没有 实际 使 用 。 


图 10-6 环 型 路 由 是 正确 的 但 不 是 高 效 的 (基于 
Rowstron 和 Druschell 2001 ] ) 


图 10-6 描述 了 这 样 的 Pastry 系统 ， 它 的 1 值 是 4 (Pastry 的 典型 安装 中 1 的 值 为 8) 。 基 于 叶子 集合 
的 定义 ， 我 们 可 以 总 结 出 : 在 每 步 中 ， 消 息 1 都 将 发 往 比 当前 结 点 更 接近 于 九 的 结 点 ， 因 此 这 个 过 程 
最 终 将 消息 M 发 送 到 距离 D 最 接近 的 活跃 结 点 上 去 。 但 是 ， 这 样 的 路 由 机 制 的 效率 很 明显 非常 低 ， 在 
具有 个 结 点 的 网 络 中 ， 发 送 一 条 消息 需要 大 约 N/21 跳 。 

第 二 阶段 : 在 算法 解释 的 第 二 部 分 ， 我 们 将 描述 完整 的 Pastry 算法 ， 并 且说 明 怎 样 在 路 由 表 的 帮 
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助 下 进行 高 效 路 由 。 
每 个 Pastry 结 点 都 维护 一 个 树 型 结构 的 路 由 表 ， 表 中 包含 一 系列 结 点 的 GUID 和 IP 地 址 ， 这 些 
GUID 的 值 可 能 是 2” 范 围 内 的 任意 一 个 值 ， 其 中 数值 上 接近 当前 结 点 的 GUD 值 的 CUD 的 密度 更 大 。 
图 10-7 给 出 了 某 个 结 点 的 路 由 表 的 结构 ， 图 10-8 说 明了 路 由 算法 的 过 程 。 路 由 表 是 按 下 述 方式 构 
造 的 ; GUID 值 以 十 六 进 制 表 示 ， 路 由 表 依据 GUD 的 十 六 进 制 数 的 前 级 的 不 同 对 其 进行 分 类 。 路 由 表 
的 行 数 和 GUID 的 十 六 进 制 表示 的 位 数 相 同 ， 因 此 对 于 我 们 正在 描述 的 这 个 Pastry 系统 原型 来 说 ， 路 由 
表 有 128/4 =32 ff. HERK n 包含 15 项 ， 每 项 对 应 于 一 个 可 能 的 第 = 个 十 六 进 制 数位 〈 不 包括 
当前 结 点 的 GUID 的 第 个 十 六 进 制 数位 ) 。 表 中 的 每 项 指向 具有 相关 CUD 前 缀 的 多 个 结 点 中 的 一 个 。 


p= | _ GUID prefixes and corresponding nodehandles n 
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I b 61 62 63 64 65 66 67 68 69 6A 6B 6C 6D 6E F 


n n n n n n n n n n n n n n n 














2 | 650 651 652 653 654 655 656 657 658 659 65A 65B 65C 65D 65E 65F 
n n n n n n n n n n n n n n n 








3 |6540 6541 65A2 65A3 65A4 65A5 65A6 65A7 6548 6549 65AA 65AB 65AC 65AD 65AE 65AF 
n n n n n n n n n n n n n n n 





这 个 路 由 表 位 于 其 GUID 值 以 65A1 开 头 的 结 点 上 。 数 字 都 是 十 六 进 制 的 。n 代 表 [GUID,IP 地 址 ] 对 ， 将 
与 消息 目标 地 址 对 应 的 GUID 具 有 的 相同 前 缓 的 [GUID,IP 地 址 ] 对 作为 该 消息 的 下 一 跳 。 灰 色 实 体 中 的 UID 
和 当前 GUID 匹 配 的 前 组 长 度 最 多 为 p: 应 该 检查 下 一 行 或 者 邻接 集合 来 确定 路 由 。 虽 然 在 一 个 路 由 表 中 最 
多 有 32 行 ， 但 是 在 一 个 具有 N 个 活跃 结 点 的 网 络 中 ， 平 均 只 有 Iogis N 行 会 被 填充 。 


图 10-7 一 个 Pastry 路 由 表 的 前 四 行 


对 任意 结 点 4， 路 由 过 程 都 会 使 用 该 结 点 的 路 由 表 R 中 信息 和 叶子 集合 大 中 的 信息 ， 并 根据 
图 10-9 中 描述 的 算法 ， 来 处 理 来 自 应 用 程序 的 请 A 
求 和 来 自 其 他 结 点 的 消息 。 

我 们 可 以 确信 这 个 算 法 总 是 能 够 成 功 地 将 信息 
ML 发 送 到 它 的 目的 地 ， 因 为 程序 中 第 1、2、7 行 执 
行 的 操作 就 是 在 上 面 第 一 阶段 中 描述 的 操作 。 我 们 
已 经 说 明 ， 这 些 操作 是 一 个 完整 但 低 效 的 路 由 算 
法 。 图 10-9 中 的 其 他 步 又 是 通过 使 用 路 由 表 信息 
来 减少 路 由 时 需要 的 跳 数 ， 从 而 提高 算法 的 性 能 。 

当 刀 不 处 于 当前 结 点 的 叶子 集合 的 数值 范围 内 
时 ， 并 且 路 由 表 中 相关 项 可 用 时 ， 程 序 中 的 4 -5 
行 会 被 执行 。 在 当前 结 点 选择 下 一 跳 时 ， 需 要 从 左 
向 右 比较 结 点 D 和 当前 结 点 4 的 十 六 进 制 形 式 的 
GUID, RAMEN p, p 表示 D 和 4 最 长 公共 前 组 
的 长 度 。 当 要 访问 路 由 表 中 的 元 素 时 , p 将 作为 路 ea de KOTC, lg 
由 表 的 行 偏 移 量 , D 与 4 第 一 个 不 同 的 十 六 进 制 位 。 “好 的 路 由 表 的 帮助 下 ， 最 多 通过 logisN 距 便 可 将 一 
(从 左 到 右 ) 作为 列 偏 移 量 。 根 据 路 由 表 的 构造 方 。 入 消息 记功 传送 到 日 的 地 。 

式 ， 我 们 不 难得 出 ， 该 元 素 如 果 不 为 空 ， 那 么 它 包 图 10-8 Pastry 路 由 示例 
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TMA IP Baht, aN GUID 与 结 点 DD 的 GUID 有 长 为 p+1 WAFER. 





要 处 理 目标 结 点 是 D 的 消息 M (其 中 R[p 习 是 路 由 表 中 的 第 p 行 第 / 列 的 元 素 ) : 


1. If (L< D < L){ // the destination is within the leaf set or is the current node. 
2. ForwadM to the element L, of the leaf set with GUID closest to D or the current 


3. } else vi fi use the routing table to despatch M to anode with a closer GUID 

4. findp, the length of the longest common prefix of D andA and i, the (p+1)® 
hexadecimal digit of D. 

5. If@p.i) #null forward M to Rp, i] //route M to anode with a longer common 
prefix. 

6. else { // there is no entry in the routing table. 

7. Forward M to any node inL or R witha common prefixof length i, but a 

GUID that is numerically closer. 
} 
} 








图 10-9 Pastry 的 路 由 算法 


如 果品 落 在 了 叶子 集合 的 数值 范围 之 外 ， 并 且 相 应 的 路 由 表单 元 为 空 时 ， 执 行程 序 的 第 7 行 。 出 
现 这 种 情况 的 概率 是 非常 小 的 ， 只 有 当 相 应 结 点 失效 而 路 由 表 未 来 得 及 更 新 的 时 候 ， 才 可 能 出 现 这 种 
情况 。 不 过 ， 当 这 种 情况 出 现时 ， 算 法 扫描 叶子 集合 和 路 由 表 ， 然 后 选择 一 个 结 点 作为 发 送 消息 的 下 
一 跳 ， 该 结 点 的 GUD 应 该 最 接近 目标 结 点 DD 的 GUID， 并 且 具 有 长 度 为 p 的 公共 前 缀 。 如 果 这 个 结 点 
Ste Lt, 那么， 我们 可 以 按照 图 10-6 中 描述 的 第 一 阶段 的 过 程 来 操作 。 如 果 这 个 结 点 包含 在 路 由 
表 R 中 ， 那 么 该 结 点 的 GUD 一 定 比 上 中 的 任何 结 点 的 GUD 更 接近 于 DD 的 GUID ， 因 此 它 是 对 第 一 阶 
段 的 改进 。 

主机 加 入 ”新 的 结 点 加 入 时 ， 使 用 了 一 种 加 入 协议 ， 以 便 获得 它们 的 路 由 表 和 叶子 集合 内 容 ， 并 
且 新 结 点 向 其 他 结 点 通知 这 一 变化 使 它们 更 新 自己 的 路 由 表 。 首 先 ， 要 加 入 的 新 结 点 计算 出 一 个 GUID 
(通常 对 结 点 的 公 钥 应 用 SHA-1 散 列 函数 而 获得 ) ， 然 后 和 附近 的 一 个 Patry 结 点 建立 连接 (这 里 我 们 
使 用 的 “附近 ”这 个 词 是 指 网 络 距 离 ， 即 较 少 的 网 络 跳 数 或 较 低 的 传输 延迟 。 见 下 面 关于 “最 近邻 居 
算法 ”的 介绍 ) 。 

假设 新 结 点 的 GUD 是 三 ， 并 且 它 所 联系 的 附近 结 点 的 GUID 为 4。 结 点 也 发 送 一 个 专门 的 join 请 
求 消息 给 结 点 4， 并且 这 个 消息 的 目标 地 址 被 设 为 了 。 结 点 A 按 正常 的 方式 通过 Pastry 分 发 join 消息 。 
Pastry 将 会 把 join 消息 发 送 到 其 GUID 值 与 下 在 数值 上 最 接近 的 已 有 结 点 上 去 ;我 们 不 妨 把 这 个 目的 地 
结 点 称 为 Zo 

结 点 4、Z 以 及 所 有 在 路 由 join 消息 到 2 的 路 途上 的 结 点 (如 B、C……)， 它 们 会 在 常规 Pastry 路 
由 算法 中 加 入 一 步 ， 这 将 使 它们 路 由 表 和 叶子 集合 中 的 有 关 信 息 传递 到 结 点 了， 然后 结 点 对 这 些 信 
息 进行 检查 ， 再 利用 这 些 信息 构造 自己 的 路 由 表 和 叶子 集合 。 如 果 有 必要 的 话 ， 结 点 在 这 个 过 程 中 
还 可 以 从 其 他 结 点 请 求 获得 一 些 额外 的 信息 。 

为 了 了 解 结 点 如 何 构 建 它 自 己 的 路 由 表 ， 读 者 应 该 注意 到 路 由 表 的 第 一 行 依赖 于 结 点 了 的 GUID 
fi, 而 且 为 了 使 路 由 距离 尽 可 能 小 ， 构 造 出 来 的 路 由 表 应 该 做 到 尽 可 能 通过 邻居 结 点 路 由 消息 。4 是 
的 一 个 邻居 结 点 ， 因 此 结 点 4 的 路 由 表 的 第 一 行将 是 结 点 了 路 由 表 的 第 一 行 (X0) 的 首选 。 另 一 方 
面 ， 对 于 结 点 下 路 由 表 的 第 二 行 (XO 来 说 ， 结 点 4 的 路 由 表 可 能 与 X1 是 不 相关 的 了 ， 因 为 结 点 天 
的 GUID 和 结 点 4 的 GUID 的 十 六 进 制 形式 的 第 一 位 可 能 并 不 相同 。 不 过 ， 路 由 算法 可 以 确保 结 点 下 的 
GUID 和 结 点 B 的 GUID 的 第 一 位 相同 ， 这 也 意味 着 结 点 B 路 由 表 的 第 二 行 (B81) WE XL (AX 
由 表 的 第 二 行 ) 来 说 是 首选 。 相 似 的 ， 结 点 C 路 由 表 的 第 三 行 (C2) 对 于 结 点 站 路 由 表 的 第 三 行 
(X2) 来 说 是 首选 ， 其 他 的 行 以 此 类 推 。 

此 外 ， 我 们 回想 一 下 结 点 叶子 集合 的 性 质 ， 注 意 到 既然 结 点 Z 的 GUID 在 数值 上 最 接近 结 点 了 的 
GUID, 那么 了 的 叶子 集合 应 该 和 Z 的 叶子 集合 相似 。 事 实 上 ， 理 想 情况 下 了 的 叶子 集合 与 Z 的 叶子 集 
合 只 有 一 个 成 员 不 同 。 因 此 2 的 叶子 集合 对 于 XX 来 说 是 一 个 足够 好 的 最 初 的 近似 ， 最 终 通 过 一 系列 与 
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邻居 结 点 的 交互 ， 这 个 集合 将 得 以 优化 。 这 将 在 下 面 的 “容错 ”部 分 加 以 介绍 。 

最 后 ， 一 旦 结 点 了 按照 上 面 所 说 的 方式 建立 起 它 的 路 由 表 和 叶子 集合 ， 它 就 可 以 将 路 由 表 和 叶 
子 集合 的 内 容 发 送 给 路 由 表 和 叶子 集合 中 的 所 有 可 识别 结 点 ， 相 关 结 点 接收 到 的 内 容 ， 然 后 调整 
它们 自己 的 表 以 接纳 新 结 点 。 把 一 个 新 的 结 点 加 入 到 Pastry 基础 设施 的 任务 需要 传送 O(logN) 条 
消息 。 

主机 失效 或 退出 ”处 于 Pastry 基础 设施 中 的 结 点 可 能 失效 或 者 没有 任何 预警 退出 Pastry。 当 Pastry 
中 的 一 个 结 点 的 (在 GUID 空间 意义 上 的 ) 直接 邻居 结 点 不 再 与 其 通信 时 ， 便 认为 这 个 结 点 失效 了 。 
这 时 ， 含 有 该 失效 结 点 的 GUID 的 叶子 集合 应 该 得 到 相应 的 修正 。 

当 菜 个 结 点 发 现 有 结 点 失效 时 ,为 了 修复 自身 的 叶子 集合 L， 它 应 该 在 工 中 寻找 靠近 失效 结 点 的 
某 个 “ 活 ” 结 点 ， 然 后 从 那个 结 点 中 获得 其 叶子 集合 的 一 份 副本 ，L’ 中 包含 与 上 部 分 重合 的 GUD 
序列 ， 其 中 有 一 个 合适 的 代替 失效 结 点 的 结 点 。 其 他 的 邻居 结 点 也 会 收 到 有 结 点 失效 的 通知 ， 这 些 结 
点 也 会 执行 类 似 的 操作 ， 以 修复 它们 的 叶子 集合 。 这 个 修复 过 程 能 够 保证 结 点 的 叶子 集合 可 以 得 到 修 
复 ， 除 非 结 点 的 ! 个 相 邻 结 点 同时 失效 。 

对 路 由 表 的 修复 基于 “一 旦 发 现 ” 机 制 ， 即 使 一 些 路 由 表 项 不 再 有 效 ， 消 息 的 路 由 仍 能 继续 进 
行 一 一 如 果 路 由 失败 ， 那 么 将 使 用 路 由 表 同 一 行 的 其 他 项 。 


最 近邻 居 算 法 

一 个 新 结 点 要 加 入 Pastry 时 ， 它 至 少 应 该 知道 Pastry 中 已 有 的 一 个 结 点 的 地 址 ， 不 过 这 个 已 有 
的 结 点 与 新 结 点 不 必 是 相 邻 的 。 为 了 使 新 结 点 知道 邻近 结 点 的 地 址 ，Pairy 包含 了 一 个 “最 近邻 居 ” 
算法 ， 它 保存 当前 已 知 最 近 的 结 点 ， 然 后 定期 地 给 包含 在 当前 最 近 结 点 的 叶子 集合 中 的 结 点 发 送 探 
测 消息 ， 然 后 根据 往返 延迟 来 判断 是 否 有 比 当前 结 点 更 近 的 结 点 ， 通 过 这 个 递归 的 过 程 ， 便 可 以 使 
新 结 点 找到 它 的 邻近 结 点 。 


地 域 性 ”Pastry 路 由 结构 是 高 度 元 余 的 ， 即 在 每 对 结 点 之 间 有 许多 条 路 由 。 路 由 表 的 构造 利用 了 
低层 传输 网 络 〈 通 常 是 互联 网 结 点 的 一 个 子 集 ) 结 点 的 地 域 属性 ， 其 目的 就 是 利用 大 量 元 余 来 减少 实 
际 消息 传递 的 次 数 。 

我 们 回想 一 下 ， 路 由 表 中 的 每 一 行 包 含 16 项 。 第 i 行 包含 16 个 结 点 地 址 ， 将 它们 的 GUID 与 当前 
结 点 的 GUID 相 比 较 ， 它 们 前 i- 1 个 十 六 进 制 位 与 当前 结 点 是 相同 的 ， 而 第 ;个 十 六 进 制 位 分 别 取 可 
能 的 值 。 一 个 填充 良好 的 Pastry 路 由 覆盖 包含 的 结 点 要 比 某 个 结 点 路 由 表 中 包含 的 结 点 多 得 多 。 每 当 
构建 一 个 新 的 路 由 表 的 时 候 ， 都 需要 按照 最 近邻 居 选 择 算法 [Gummadi et al. 2003] 在 几 个 〈 从 其 他 结 
点 提供 的 路 由 信息 中 获得 的 ) 候选 结 点 中 做 出 选择 。 通 常 根据 结 点 之 间 地 域 距离 OP 跳 数 或 通信 延 
E) 来 比较 候选 结 点 ， 最 后 选中 最 近 的 且 可 用 的 候选 结 点 。 因 为 可 用 的 信息 并 不 够 全 面 ， 因 此 这 种 机 
制 不 能 产生 全 局 最 优 的 路 由 。 但 是 模拟 实验 显示 这 个 路 由 平均 只 比 最 优 路 由 长 30% ~50% 。 

容错 ”按照 上 面 的 描述 ，Pastry 路 由 算法 假设 路 由 表 中 所 有 项 和 叶子 集合 对 应 的 结 点 都 是 “ 活 ” 
结 点 ， 且 都 工作 正常 。 所 有 结 点 都 会 发 送 “ 心 跳 消息 ”( 即 按 固定 时 间 间 隔 发 送 的 消息 ， 用 来 表明 发 
送 消息 的 结 点 是 “ 活 ” 结 点 ) 给 自己 叶子 集合 中 的 邻居 结 点 。 但 是 以 这 样 的 方式 检测 到 的 关于 某 个 结 
点 失效 的 信息 并 不 能 很 快 地 发 布 给 其 他 结 点 ， 从 而 消除 路 由 错误 。 而 且 ， 这 种 方式 也 不 能 避免 某 些 亚 
意 结 点 试图 干扰 正确 的 路 由 。 为 了 解决 这 些 问 题 ， 依 靠 可 靠 消息 传递 的 客户 希望 使 用 具有 “至 少 一 
次 ”语义 的 传递 机 制 (参见 5. 3. 1 节 ) ， 在 没有 收 到 应 答 时 ， 重 复发 送 消息 。 这 样 可 以 使 得 Pastry 获得 
更 长 的 时 间 窗 口 来 检测 和 修复 结 点 失效 。 

为 了 处 理 其 他 的 故障 或 对 付 怀 有 恶意 的 结 点 ， 可 在 图 10-9 描述 的 路 由 选择 算法 基础 上 引入 小 范围 
的 随机 性 。 要 点 是 对 图 10-9 所 示 程 序 的 第 5 行进 行 一 下 修改 ， 随 机 地 选择 一 小 部 分 实例 ， 它 们 具有 公 
共 的 前 妈 ， 但 是 长 度 小 于 最 大 长 度 。 这 将 导致 可 能 使 用 路 由 表 中 靠 前 的 行 来 路 由 ， 尽 管 这 样 的 路 由 不 
够 优化 ， 但 是 它 不 同 于 算法 的 标准 版 路 由 。 通 过 在 路 由 算法 中 使 用 这 个 随机 变化 ， 即 使 有 少量 的 恶意 

(442) 结 点 存在 ， 客 户 重 传 应 该 最 终 获 得 成 功 。 
可 靠 性 Pastry 的 作者 已 经 开发 出 了 一 个 更 新 的 版 本 ， 叫 做 MSPastry[ Castro et al. 2003] ， 它 仍然 使 
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用 同样 的 路 由 算法 和 相似 的 主机 管理 方法 ,但 是 它 还 包含 了 一 些 额 外 的 可 靠 性 措施 ， 并 对 主机 管理 算 
法 的 性 能 进行 了 优化 。 

保障 可 靠 性 的 措施 包括 在 路 由 算法 中 的 每 一 跳 都 使 用 确认 。 如 果 发 送 消 息 的 主机 在 指定 的 时 间 内 
没有 收 到 相应 的 确认 ， 那 么 它 将 选择 另 一 个 路 由 来 重 发 这 条 消息 。 没 有 成 功 发 送 确认 消息 的 结 点 ， 将 
被 标记 为 可 疑 的 失效 结 点 。 

如 上 所 述 ， 为 了 探测 到 失效 的 结 点 ， 每 个 Pastry 结 点 会 定期 发 送 心 跳 消 息 给 处 于 叶子 集合 中 左 部 
的 〔( 即 该 结 点 的 GUID 比 当前 结 点 的 GUID 小 ) 直接 邻居 结 点 。 每 个 结 点 还 记录 上 一 次 从 右 部 邻居 结 
点 〈 即 该 结 点 的 CUD 比 当前 结 点 的 大 ) 收 到 心跳 信息 的 时 间 。 如 果 从 上 次 站 到 心跳 消息 到 现在 的 时 
间 间 隔 超 出 一 个 时 间 阐 值 ， 则 探测 结 点 将 开始 路 由 表 的 修复 过 程 ， 它 会 联系 叶子 集合 中 的 其 他 结 点 ， 

告知 它们 某 个 结 点 失效 了 ， 并 且 发 出 一 个 关于 建议 替代 结 点 的 请 求 。 就 算 多 个 结 点 同时 失效 ， 当 这 个 
过 程 结 束 时 ， 所 有 在 失效 结 点 左边 的 结 点 都 将 有 一 个 新 的 叶子 集合 ， 其 中 包含 和 当前 结 点 GUID 最 接 
近 的 1 个 “ 活 ” 结 点 。 

我 们 已 经 看 到 ， 路 由 算法 在 只 使 用 叶子 集合 时 能 具有 正确 的 功能 ,但 是 维护 一 个 路 由 表 对 于 提高 
性 能 来 说 是 非常 重要 的 。 路 由 表 中 的 可 疑 的 失效 结 点 可 以 被 探测 ， 其 方式 类 似 于 可 疑 的 失效 结 点 处 于 
叶子 集合 中 的 情况 。 探 测 时 ， 如 果 可 疑 的 失效 结 点 没有 响应 ， 那 么 路 由 表 中 相关 项 包含 的 结 点 将 被 另 
一 个 合适 的 结 点 〈 从 附近 结 点 中 获得 ) 替代 。 另 外 ， 可 以 使 用 一 个 简单 的 闲聊 (gossip) 协议 《参见 
18. 4.1 节 ) 来 定期 在 结 点 之 间 交 换 路 由 表 信息 ， 从 而 修复 路 由 表 失 效 的 项 ， 并 避免 地 域 特 性 的 缓慢 退 
化 。 闲 聊 协 议 每 隔 20 分 钟 运行 一 次 。 

评估 工作 Castro 和 他 的 同事 对 MSPastry 进行 了 详尽 的 性 能 评估 ， 他 们 的 目的 就 是 确定 主机 加 入 / 
离开 率 以 及 相关 的 可 靠 性 机 制 对 性 能 和 可 靠 性 的 影响 [ Castro et al. 2003] 。 

评估 的 方法 是 : 有 一 个 模拟 器 ， 它 运行 在 一 台 计算 机 上 ， 并 且 能 够 模拟 大 量 的 网 络 主机 ; 在 这 个 
。 模拟 器 控制 下 ， 再 运行 MSPastry 系统 ， 消 息 传递 由 模拟 的 传输 延迟 替代 。 这 个 模拟 试验 实际 上 是 根据 
现实 应 用 中 的 参数 而 模拟 主机 加 入 /离开 行为 和 IP 传输 延迟 。 

”MSPastry 所 有 的 可 靠 性 机 制 都 包含 于 该 模拟 中 ， 并 设置 了 实际 的 探测 与 心跳 消息 周期 。 通 过 将 数 
据 与 实际 应 用 负载 《在 52 个 结 点 的 内 部 网 络 上 运行 了 MSPastry) 下 的 测量 结果 比较 ， 模 拟 实 验 的 有 效 
性 也 得 到 了 验证 。 

在 这 里 ， 我 们 总 结 他 们 获得 的 关键 结果 。 

THEM: 如 果 卫 消息 的 丢失 率 是 0% ， 那 么 在 100 000 个 请 求 中 ，MSPastry 只 有 1.5 个 请 求 没 有 成 
功 传送 到 目标 主机 (可 能 是 因为 目标 主机 不 可 用 ) ， 其 他 所 有 的 请 求 都 被 传递 ， 到 达 目 标 结 点 。 

WE IP 消息 的 丢失 率 为 5% ， 那 么 MSPastry 在 100 000 个 请 求 中 ， 大 约 有 3. 3 个 请 求 被 丢失 ， 另 外 
大 约 有 1. 6 个 请 求 被 传递 到 错误 的 结 点 。 通 过 在 MSPastry 中 的 每 一 跳 使 用 确认 机 制 ， 可 以 保证 所 有 丢 
失 的 或 者 被 传 错 目的 地 的 消息 都 能 够 被 重 传 并 到 达 正 确 的 结 点 。 

性 能 ; 评估 MSPastry 性 能 的 指标 被 称 为 相对 延迟 惩罚 (Relative Delay Penalty, RDP) [ Chu et 
al. 2000] 或 者 扩展 度 (stretch) RDP 直接 度量 发 生 在 覆盖 路 由 层 的 额外 开销 。 它 是 两 个 量 之 间 的 比 
值 ; 第 一 个 量 是 通过 路 由 覆盖 传递 一 个 请 求 的 平均 延迟 ， 第 二 个 量 是 在 同样 两 个 结 点 之 间 使 用 UDP/IP 
传递 同一 个 消息 的 平均 延迟 。 使 用 模拟 负载 ，MSPastry 观测 到 的 RDP 值 在 网 络 消息 丢失 率 为 0% 情况 
FA 1.8, 在 网 络 消息 丢失 率 为 5% 情况 下 约 为 2.2。 

开销 : 对 每 个 结 点 来 说 ， 由 控制 流量 ( 指 用 来 维护 结 点 的 叶子 集合 和 路 由 表 的 一 系列 消息 ) 生成 
的 额外 网 络 负载 少 于 每 分 钟 2 条 消息 。 由 于 存在 初始 安装 开销 ， 当 会 话 时 间 少 于 60 分 钟 时 ，RDP 和 控 
制 流量 都 会 显著 增长 。 

总 的 来 说 ， 这 些 结果 表明 ， 在 有 数 以 千 计 结 点 运行 的 真实 环境 中 ， 其 有 高 性 能 、 高 可 靠 性 的 路 由 
覆盖 层 是 可 以 被 构建 出 来 的 。 即使 在 会 话 时 间 少 于 60 分 钟 和 网 络 错误 率 很 高 的 情况 下 ， 系 统 也 能 适当 
地 降级 ， 继 续 提 供 有 效 的 服务 。 

优化 覆盖 查找 延迟 ”Zhang 等 [2005a] 的 工作 说 明 一 类 重要 的 覆盖 网 络 (包括 Pastry, Chord 和 
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Tapestry) 的 查找 性 能 能 通过 增加 一 个 简单 的 学 习 算法 而 有 实质 性 提高 ， 该 算法 度量 实际 所 需 的 访问 覆 
盖 结 点 的 延迟 ， 并 增 量 式 修改 覆盖 路 由 表 ， 以 优化 访问 延迟 。 


10.5.2 Tapestry 


Tapestry 实现 了 一 个 分 布 式 散 列表 ， 并 基于 和 资源 相关 的 GUID ， 使 用 和 Pastry 类 似 的 前 级 路 由 方 
式 将 消息 路 由 给 结 点 。 但 是 从 应 用 层面 上 看 ，Tapestry 的 API 把 分 布 式 散 列表 隐藏 在 了 类 似 图 10-5 所 
示 的 DOLR 接口 后 面 。 持 有 资源 的 结 点 使 用 publish (GUID) 原 语 来 告知 Tapestry 它们 的 存在 ， 然 后 持 
有 资源 的 结 点 仍 负 责 存 储 这 些 资 源 。 含 有 该 资源 副本 的 每 个 结 点 使 用 相同 的 CUD 来 发 布 该 资源 ， 这 
使 得 Tapestry 的 路 由 结构 中 有 多 个 路 由 项 。 

RAFT Tapestry 应 用 一 些 额 外 的 灵活 性 : 它们 可 以 把 资源 副本 放 到 经 常 使 用 该 资源 的 用 户 附近 
( 按 网 络 距 离 )， 从 而 降低 延迟 并 最 小 化 网 络 负载 ， 还 能 够 确保 对 网 络 和 主机 故障 的 容错 。 但 是 ， 这 并 不 
是 Pastry 和 Tapestry 最 本 质 的 区 别 : 让 与 GUD 对 应 的 对 和 象 作为 更 复杂 的 应 用 级 对 象 的 代理 ，Pastry 应 用 
也 能 够 获得 类 似 的 灵活 性 ; Tapestry 也 可 以 按 DOLR API[ Dabek et al. 2003] 来 实现 一 个 分 布 式 散 列表 。 

在 Tapestry 中 ,使 用 160 位 的 标识 符 来 引用 对 象 和 执行 路 由 动作 的 结 点 。 标 识 符 要 么 是 标识 实施 
路 由 操作 的 计算 机 的 Nodeld， 要 么 是 标识 对 象 的 GUID。 对 于 任何 CUD 为 G 的 资源 来 说 ， 它 们 都 具有 
唯一 的 根 结 点 ， 并 且 这 个 根 结 点 Re 具有 的 CUD 是 最 接近 于 6 的。 持 有 资源 C 副本 的 主机 五 定期 调用 
publish( G) ， 以 确保 新 加 入 的 主机 能 够 获知 C 的 存在 。 在 每 次 调用 publish( G) 时 ， 一 个 发 布 消息 都 会 
从 调用 者 结 点 路 由 到 结 点 Ro RAA Re 收 到 该 发 布 消息 ， 它 就 为 它 的 路 由 表 添 加 一 项 (6，IP，)， 
该 项 代表 G 和 发 送 发 布 消息 主机 的 下 地址 之 间 的 映射 。 路 由 该 发 布 消息 时 ， 所 经 过 的 每 个 结 点 都 会 缓 
存 这 个 映射 。 我 们 在 图 10-10 中 说 明了 这 个 过 程 。 当 结 点 存储 了 GUD 为 6 的 多 个 映射 《G，IP) 时 ， 
它 会 按照 当前 结 点 到 这 些 PP 地 址 的 网 络 距 离 ( 往 返 时 间 ) 来 对 这 些 映 射 排序 。 随 后 发 往 该 对 象 的 消 
息 ， 会 在 所 有 可 用 的 对 象 副本 中 选择 一 个 最 近 的 作为 消息 的 目标 地 址 。 








E A (4378 的 根 ) 
= EN 、 
4377 的 一 
Tapestry 路 由 A eT a Eis Ñ s 
vo 7 
437A 
发 布 路 径 4228 ZY oe. 
< _ 
ner 4361 -一 _ Yo 
= 4378 a i vy 
4378 的 位 置 映射 Phil’s i | 
， 4A6D 
一 人 AN 
send(4378) 实际 E791 ii Nyy, ‘ 4378 
采取 的 路 由 57EC — 


文件 Phil's Book (G=4378 ) 的 副本 存储 在 结 点 4228 和 结 点 AA93 中 。 对 于 对 象 4378， 结 
点 4337 是 其 根 结 点 。 显 示 的 Tapestry 路 由 是 路 由 表 中 的 一 部 分 路 由 项 。 发 布 路 径 给 出 了 发 布 
消息 后 形成 的 路 由 ， 在 这 个 路 径 上 留 下 了 对 象 4378 的 位 置 映射 缓存 。 位 置 映射 接 下 来 会 用 于 
路 由 发 送 给 4378 的 消息 。 


图 10-10 Tapestry 的 路 由 
Zhao “ [2004] 详细 地 描述 了 Tapestry 路 由 算法 ， 也 给 出 了 在 遇 到 结 点 加 入 和 退出 的 时 候 Tapestry 
路 由 表 的 管理 。 他 们 的 论文 还 包括 了 详尽 的 性 能 评估 数据 ， 这 些 数据 是 基于 对 大 规模 Tapestry 网 络 的 
模拟 而 得 出 的 ， 这 些 数据 表明 Tapestry 具有 和 Pastry 相似 的 性 能 。10. 6. 2 节 搞 述 的 OceanStore 文件 存储 
就 是 在 Tapestry 上 构造 和 部 署 的 。 


10.5.3 ”从 结构 化 对 等 方法 到 非 结构 化 对 等 方法 
到 目前 为 止 的 讨论 集中 在 所 谓 的 结构 化 对 等 方法 。 在 结构 化 方法 中 ， 有 一 个 全 局 的 策略 来 控制 网 络 的 
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拓扑 、 网 络 中 对 象 的 放置 以 及 用 于 在 网 络 中 定位 对 象 的 路 由 或 查找 功能 。 换 名 话说， 有 一 个 特定 的 
(分 布 式 的 ) 数据 结构 支持 相关 的 覆盖 网 ， 同 时 ， 有 一 套 算 法 用 于 在 该 数据 结构 上 操作 。 这 点 可 以 从 

Pastry 和 Tapestry 例子 中 很 清楚 地 看 到 ， 它 们 基于 底层 的 分 布 式 散 列 表 和 相关 的 环 结构 。 因 为 所 使 用 的 

结构 ， 这 样 的 算法 是 有 效 的 ， 它 提供 定位 对 象 的 时 限 ， 但 也 要 付出 代价 ， 即 经 常 需要 在 高 度 动态 环境 

中 维护 底层 结构 。 

因为 这 个 维护 问题 ， 产 生 了 非 结构 化 对 等 《unstructured peer-to-peer) 方法 。 在 非 结 构 化 方法 中 ， 
没有 对 拓扑 或 网 络 中 对 象 放 置 的 整体 控制 。 相 反 的 ， 覆盖 网 以 随机 方式 创建 ， 每 个 加 入 到 网 络 的 结 点 
遵循 一 些 简 单 的 、 本 地 的 规则 来 建立 连接 。 尤 其 是 ， 一 个 要 加 入 的 结 点 将 建立 与 一 个 邻居 集 的 连接 ， 
因为 知道 那个 邻居 将 与 更 远 的 邻居 相连 接 ， 从 而 基本 形成 了 去 中 心 化 的 和 自 组 织 的 网 络 ， 因 此 能 应 对 
结 点 故 谭 。 为 了 定位 一 个 给 定 的 对 象 ， 有 必要 对 形成 的 网 络 拓扑 进行 搜索 ， 显 然 ， 这 个 方法 不 能 提供 
找到 对 象 的 任何 保证 ， 性 能 也 不 能 预测 。 此 外 ， 还 存在 一 个 真实 的 风险 ， 即 为 了 定位 对 象 而 生成 过 量 
的 消息 流量 。 

图 10-11 总 结 了 结构 化 对 等 系统 和 非 结构 化 对 等 系统 各 自 相 对 的 优势 。 尽 管 非 结 构 化 对 等 系统 有 
明显 的 缺点 ， 但 该 方法 在 互联 网 中 是 占 主 导 地 位 的 ， 特 别 在 支持 对 等 文件 共享 方面 (如 Gnutella, 
FreeNet 和 BitTorrent 这 样 的 系统 都 采用 了 无 结构 的 方法 )， 认 误 到 这 一 点 很 有 趣 。 正 如 将 要 看 到 的 那 
样 ， 这 样 的 系统 已 经 有 了 重大 的 进展 ， 可 以 提高 非 结 梅 方法 的 性 能 ， 从 互联 网 中 对 等 文件 共享 生成 的 
流量 看 ， 这 项 工作 是 重要 的 。( 例 如 ，2008/2009 年 的 一 个 研究 表明 ; 根据 研究 的 样本 流量 的 不 同 ， 对 
等 文件 共享 应 用 占 所 有 互联 网 流量 的 43% ~70% [ www. ipoque. com] 。) 


—— 
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PERT AN RRR EWEA, 点 的 实现 比较 难 ie i 、 











图 10-11 结构 化 对 等 系统 与 非 结 构 化 对 等 系统 


有 效 搜索 的 策略 ”在 对 等 文件 共享 中 ， 网 络 中 的 所 有 结 点 给 更 大 的 环境 提供 文件 。 如 上 所 述 ， 定 
位 一 个 文件 的 问题 是 为 了 定位 合适 的 文件 而 对 全 网 进行 一 次 搜索 。 如 果 简 单 地 加 以 实现 ， 那么 可 以 在 
网 络 上 泛 洪 请 求 来 实现 。 这 正 是 Gnutella 早期 版 本 采用 的 策略 。 特 别 的 ， 在 Gnutella 0.4 中 ， 每 个 结 点 [446] 
向 它 的 每 个 邻居 转发 请 求 ， 这 些 邻 居 结 点 再 依次 把 请 求 传 递 给 它们 的 邻居 ， 如 此 这 般 ， 一 直到 找到 匹 
配 的 文件 为 止 。 在 部 署 Gnutella 0. 4 WAR, 平均 的 连接 度 是 每 个 结 点 大 约 5 个 邻居 。 这 个 方法 简单 ， 
但 不 能 伸缩 ， 与 搜索 相关 的 流量 会 很 快 充斥 网 络 。 

已 经 开发 了 许多 改进 方案 用 于 非 结构 化 网 络 的 搜索 [Lv et al 2002，Tsoumakos and Roussopoulos 
2006] ， 包 括 以 下 3 项 。 

扩展 环 搜索 : 在 这 个 方法 中 ， 发 起 结 点 完成 一 系列 的 搜索 ， 期 间 不 断 增 加 存活 期 (time-to-live) 
域 的 值 ， 同 时 ， 识 别 出 大 量 本 地 可 以 满足 的 请 求 〈 尤 其 是 ， 如 果 与 一 个 有 效 的 复制 策略 相 结合 ， 见 下 
HWW). 

随机 漫步 : 在 该 方法 中 ， 发 起 结 点 发 出 一 系列 漫步 者 《walker) ， 它 们 在 非 结 构 覆 盖 网 提供 的 互 连 
的 图 上 沿 着 它们 自己 的 随机 路 径 进 行 搜索 。 

Re. 在 闲聊 方法 中 ,一 个 结 点 以 一 定 的 概率 发 送 请 求 给 一 个 给 定 的 邻居 ， 因 此 ， 请 求 在 网 络 中 
以 类 似 病 毒 在 人 和 群 中 传播 的 方式 进行 〈 因 些 ， 闲 聊 协 议 也 称 为 传染 病 协 议 ) 。 对 于 一 个 给 定 的 网 络 ， 
概率 既 可 以 是 固定 的 ， 也 可 以 是 根据 以 前 的 经 验 和 (或 ) 当前 的 上 下 文 动态 计算 出 来 的 (请 注意 ， 闲 
聊 是 分 布 式 系统 中 的 一 种 常见 的 技术 ， 进 一 步 的 应 用 可 以 在 第 6 章 和 第 18 章 找到 ) 。 

这 样 的 策略 能 极 大 地 减少 非 结构 网 络 中 搜索 的 开销 ， 因 此 ， 增 加 了 算法 的 可 伸缩 性 。 这 样 的 策略 
也 经 常 由 合适 的 复制 技术 支持 。 通 过 在 若干 对 等 方 复制 内 容 ， 发 现 特定 文件 的 概率 能 大 大 提高 。 这 些 
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技术 包括 在 互联 网 上 复制 整个 文件 和 散布 文件 的 片段 。 后 者 是 BitTorrent 使 用 的 方法 ， 它 减少 了 下 载 大 
文件 的 对 等 方 的 负载 。 

WAS: Gnutella Gnutella 于 2000 年 发 布 ， 从 那 时 起 ， 它 已 经 成 长 为 一 个 主要 的 和 最 有 影响 力 
的 对 等 文件 共享 应 用 。 如 上 所 述 ， 开 始 时 ， 协 议 采 用 一 个 相对 简单 的 泛 洪 策略 ， 该 策略 不 能 很 好 地 伸 
缩 。 为 了 应 对 这 个 问题 ，Gnutella 0. 6 引入 了 一 系列 修改 ， 这 些 修改 大 大 提升 了 协议 的 性 能 。 

第 一 个 大 的 改进 是 从 所 有 结 点 都 平等 的 、 纯 的 对 等 体系 结构 进化 到 这 样 一 个 结构 ， 所 有 对 等 结 点 
仍然 相互 协作 提供 服务 ,但 一 些 结 点 被 选 为 超级 结 点 (ultrapeer) ， 被 指定 具有 额外 的 资源 ， 它 们 形成 
了 网 络 的 核心 ， 而 其 他 一 些 对 等 结 点 承担 叶子 结 点 的 角色 。 叶 子 与 少量 的 超级 结 点 相连 ， 而 超级 结 点 
又 与 其 他 大 量 超级 结 点 连接 (每 个 都 有 超过 32 个 连接 )。 这 大 大 减少 了 进行 彻底 搜索 所 需求 的 最 大 跳 
数 。 这 种 对 等 体系 结构 风格 被 称 为 混合 体系 结构 ， 也 是 Skype 采用 的 方法 (相关 讨论 参见 4.5.2 节 )。 

其 他 关键 的 改进 是 引入 一 个 查询 路 由 协议 (Query Routing Protocol，QRP) ， 该 协议 用 于 减少 结 点 发 
送 的 查询 数量 。 协 议 建立 在 交换 结 点 中 包含 的 文件 信息 上 ， 因 此 ， 仅 沿 系统 认为 有 一 个 正面 结果 的 路 
径 转 发 查询 。 该 协议 并 非 直接 共享 文件 信息 ， 而 是 通过 散 列 文件 名 字 中 的 各 个 词 产 生 的 一 个 数字 集合 。 
例如 , “Chapter ten on P2P” 这 样 的 文件 名 将 用 四 个 数字 表示 ， 即 <65, 47, ，09 ，76 > 。 一 个 结 点 产生 
一 个 查询 路 由 表 (Query Routing Table，QRT) ， 它 包含 代表 该 结 点 上 每 个 文件 的 散 列 值 ， 接 着 ， 发 送 
这 个 路 由 表 给 所 有 与 它 相 连 的 超级 结 点 。 超 级 结 点 基于 所 有 相连 的 叶子 结 点 的 所 有 项 加 上 自身 包含 的 
文件 的 项 ， 形 成 它们 自己 的 查询 路 由 表 ， 并 与 其 他 相连 的 超级 结 点 交换 路 由 表 。 这 样 ， 超 级 结 点 对 于 
一 个 给 定 的 查询 可 以 决定 哪个 路 径 能 提供 一 个 有 效 的 路 由 ， 从 而 大 大 减少 了 不 必要 的 流量 。 更 具体 来 
说 ， 如 果 一 个 超级 结 点 找到 一 个 匹配 结 点 (表明 那个 结 点 有 这 个 文件 ) ， 那 么 将 转发 查询 到 那个 结 点 ; 
如 果 那 个 超级 结 点 是 到 达 文 件 的 最 后 一 跳 ， 那 么 在 把 请 求 传递 给 这 个 超级 结 点 之 前 将 完成 相同 的 检查 。 
请 注意 ， 为 了 避免 超级 结 点 的 过 载 ， 结 点 每 次 发 送 一 个 查询 到 一 个 超级 结 点 ， 然 后 等 待 一 段 指定 的 时 
间 ， 看 是 否 得 到 一 个 正面 的 应 答 。 

最 后 ，Gnutella 中 的 一 个 查询 包含 了 发 起 查询 的 超级 结 点 的 网 络 地 址 ， 这 意味 着 一 旦 一 个 文件 被 找 
到 ， 它 能 被 直接 送 到 这 个 相关 的 超级 结 点 〈 通 过 使 用 UDP) ， 从 而 避免 了 在 图 上 的 一 次 逆向 遍历 。 

图 10-12 总 结 了 Gnutella 0. 6 相关 的 主要 元 素 。 
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10.6 应 用 实例 研究 ，Squirrel|、OceanStore 和 lvy 

在 10. 5 节 描述 的 路 由 覆盖 层 已 经 被 用 到 几 个 应 用 试验 中 ， 所 形成 的 几 个 应 用 已 经 被 广泛 地 评估 。 
我 们 从 其 中 选择 三 个 做 进一步 的 研究 ， 这 三 个 系统 是 基于 Pastry 的 Squirrel Web 缓存 服务 OceanStore 
和 Ivy 文件 存储 系统 。 
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10.6.1 Squirrel Web 缓存 


Pastry 的 作者 已 经 开发 出 了 用 于 由 个 人 计算 机 组 成 的 局 域 网 的 对 等 Squirrel Web 缓存 服务 [Iyer et 
al. 2002] 。 在 中 等 规模 和 大 型 的 局 域 网 中 ，Web 缓存 服务 通常 由 一 台 专 门 的 服务 器 或 者 一 个 集群 来 提 
供 。Squirrel 系统 利用 局 域 网 中 桌面 计算 机 的 存储 和 计算 资源 也 能 够 完成 同样 的 任务 。 我 们 首先 概述 一 
个 Web 缓存 服务 的 运作 原理 ， 然 后 介绍 Squirrel 的 设计 ， 并 考察 一 下 它 的 有 效 性 。 

Web 缓存 Web 浏览 器 为 互联 网 对 象 (HTML 页 面 、 图 像 等 ) 产生 HTTP GET 请 求 。 该 请 求 获得 
服务 的 方式 可 能 有 多 种 : 或 者 ， 客 户 机 器 上 的 浏览 器 缓存 可 以 为 该 请 求 提供 服务 ; 或 者 ， 一 个 代理 
Web 4# (proxy Web cache) 它 是 一 个 服务 ， 运 行 在 同一 个 局 域 网 内 的 另 一 台 计 算 机 上 或 者 在 互 
联网 上 一 个 邻近 的 结 点 上 一 一 可 以 为 该 请 求 提 供 服 务 ; 或 者 ， 源 Web 服务 器 一 一 这 个 服务 器 的 域名 包 
会 在 HITP GET 请 求 的 参数 中 一 一 可 以 为 该 请 求 提供 服务 。 最 终 选 择 哪 一 种 方式 来 提供 服务 ， 取 决 于 
哪 种 方式 能 够 提供 该 对 象 的 最 新 拷贝 。 每 个 本 地 缓存 和 代理 缓存 都 包含 一 个 最 近 检 索 过 的 对 象 集合 ， 
这 个 集合 按 URL 进行 组 织 以 提供 快速 的 查询 。 另 外 ， 有 些 对 象 是 不 可 缓存 的 ， 因 为 它们 是 由 服务 器 根 
据 请 求 动态 产生 的 对 象 。 

当 浏 览 器 缓存 或 代理 Web 缓存 收 到 一 个 GET 请 求 时 ,会 有 三 种 可 能 : 被 请 求 的 对 象 是 不 可 缓存 
的 ; 被 请 求 的 对 象 不 在 缓存 中 ; 被 请 求 的 对 象 在 缓存 中 。 当 出 现 前 两 种 情况 时 ，GET 请 求 会 被 转发 给 
W Web 服务 器 。 当 在 缓存 中 找到 了 被 请 求 的 对 象 时 ， 还 必须 检测 该 对 象 是 否 是 最 新 的 。 

存储 在 Web 服务 器 和 缓存 服务 器 中 的 对 象 带 有 一 些 额 外 的 元 数据 项 ， 其 中 包括 一 个 时 间 锥 ， 这 个 
时 间 戳 给 出 该 对 象 最 后 被 修改 的 日 期 T， 还 包含 该 对 象 的 存活 期 1 或 者 一 个 eTag (从 Web 页 面 的 内 容 
计算 出 的 一 个 散 列 值 ) 。 当 一 个 对 象 返 回 给 客户 时 ， 源 服务 器 都 会 提供 这 些 元 数据 项 。 

对 于 那些 在 元 数据 项 中 包含 存活 期 寺 的 对 象 ， 只 有 当 了 ++ 表示 的 时 间 晚 于 当前 时 间 时 ， 该 对 象 才 
被 认为 是 最 新 的 。 对 于 那些 没有 存活 期 的 对 象 ， 要 检测 该 对 象 是 否 最 新 ， 将 使 用 一 个 上 的 估计 值 〈( 通 
常 这 个 估计 值 是 几 秒 ) 。 如 果 检 测 结果 是 最 新 的 ， 那 么 被 缓存 的 对 象 会 直接 返回 给 客户 ， 而 不 用 再 联系 
提供 该 对 象 的 源 服 务 器 。 如 果 结 果 不 是 最 新 的 ， 那 么 会 提交 一 个 带 条 件 的 GET HOR (cGET) 给 下 一 
级 进行 验证 。 有 两 种 基本 的 cGET 请 求 : Hf- Modified-Since 请 求 〈 它 包含 已 知 的 最 后 一 次 被 修改 的 时 间 
Bi) Ail If-None- Match 请 求 ( 它 包含 一 个 代表 对 象 内 容 的 eTag) 。 这 个 cGET 请 求 可 能 由 另外 一 个 Web 
缓存 来 提供 服务 ， 也 可 能 由 源 服务 器 提供 服务 。 收 到 cGET 请 求 的 Web 缓存 如 果 没 有 相应 对 象 的 最 新 
拷贝 ， 它 就 将 该 请 求 转发 给 源 Web 服务 器 。 对 GET 请 求 的 应 答 要 么 包含 整个 对 象 ， 要 么 是 一 条 not- 
modified 消息 (如 果 缓 存 的 对 象 还 未 修改 ) 。 i 

每 当 从 源 服 务 器 接收 到 一 个 新 的 、 被 修改 的 、 可 以 缓存 的 对 象 时 ， 该 对 象 都 会 被 加 和 本 地 缓存 的 
对 象 集合 中 〈 如 果 有 必要 ， 可 以 替换 原来 的 仍然 有 效 的 老 对 象 ) ， 同 时 如 果 存 在 该 对 象 的 时 间 惟 、 存 
活期 :和 eTag， 那 么 它们 也 会 被 同时 保存 。 

集中 式 代理 Web 缓存 服务 已 经 被 部 署 到 大 多 数 支 持 大 量 Web 客户 的 局 域 网 中 ， 这 种 代理 服务 的 运 
行 基础 就 是 我 们 在 上 面 描述 的 策略 。 代 理 We 缓存 通常 被 实现 成 运行 于 一 台 专 门 主机 上 的 多 线程 进 
程 ， 或 者 是 运行 于 计算 机 集群 上 的 进程 集合 。 这 两 种 情况 都 需要 大 量 专用 的 计算 资源 。 

Squirrel Squirrel Web 缓存 服务 使 用 网 络 中 每 台 客 户 计算 机 的 一 小 部 分 资源 完成 了 同样 的 功能 。 
对 每 个 缓存 对 象 的 URL 应 用 SHA-1 安全 散 列 函数 ， 可 以 产生 一 个 128 位 的 Pastry GUID 。 像 其 他 Pastry 
应 用 一 样 ， 既 然 GUD 不 是 用 来 验证 对 象 内 容 的 ， 因 此 产生 GUD 不 必 依赖 于 整个 对 象 的 内 容 。Squirrel 
的 作者 依据 端 到 端 观点 (2. 3.3 节 ) 做 出 自己 的 判断 ， 他 们 认为 : 一 个 Web 页 面 其 可 靠 性 可 能 在 从 服 
务 器 传送 到 客户 的 多 个 环节 中 遭 到 破坏 ， 增 加 对 缓存 页 面 的 认证 对 于 全 面 的 可 靠 性 保证 也 只 是 杯 水 车 
薪 。 对 于 那些 需要 可 靠 性 的 交互 ， 应 该 使 用 HTTPS 协议 (具有 端 到 端 传输 层 安 全 性 ， 相 关 讨 论 见 
11. 6.3 节 ) 来 获得 更 好 的 可 靠 性 保证 。 

在 Squirrel 最 简单 的 实现 中 一 一 它 已 经 被 证 明 效 率 是 最 高 的 一 一 如 果 一 个 结 点 的 GUID 和 对 象 的 
GUID 是 数值 上 最 接近 的 ， 那 么 该 结 点 就 作为 这 个 对 象 的 主 结 点 (home node) ， 负 责 持 有 该 对 象 的 缓存 
BN, 
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每 个 客户 结 点 都 包含 一 个 本 地 Squirrel 代理 进程 ， 该 进程 负责 缓存 所 有 本 地 和 远程 的 Web 对 象 。 
如 果 在 本 地 缓存 中 没有 发 现 被 请 求 对 象 的 一 个 最 新 拷贝 Squirrel 就 会 通过 Pastry 将 一 个 CET 请 求 或 者 
eGet 请 求 〈 当 本 地 缓存 包含 被 请 求 对 象 的 过 时 版 本 时 ) 路 由 到 该 对 象 的 主 结 点 。 如 果 主 结 点 有 该 对 象 
的 最 新 拷贝 ， 它 就 直接 给 客户 返回 最 新 拷贝 或 者 一 条 not-modified 消息 。 如 果 主 结 点 包含 被 请 求 对 象 的 
过 时 版 本 或 者 根本 没有 该 对 象 的 任何 拷贝 ， 那 么 它 就 分 别 发 送 Get 或 Get 请 求 给 该 对 象 的 源 服 务 器 。 
源 服务 器 的 响应 可 能 是 一 条 not- modified 消息 ， 也 可 能 是 被 请 求 对 象 的 拷贝 。 在 前 一 种 情况 下 ， 主 结 点 
重新 验证 它 的 缓存 项 ， 并 且 向 客户 返回 该 对 象 的 一 个 拷贝 ;在 后 一 种 情况 下 ， 它 将 新 对 象 的 拷贝 转发 
给 客户 ， 并 且 如 果 该 对 象 是 可 缓存 的 ， 它 还 在 自己 的 本 地 缓存 中 保存 该 对 象 的 一 个 拷贝 。 

对 Squirrel 的 评估 Squirrel 也 是 使 用 模型 化 的 负载 通过 模拟 的 方式 来 评估 的 ， 其 负载 来 自 对 微软 
内 部 两 个 真实 环境 中 已 有 的 集中 式 代理 Web 缓存 的 活动 的 跟踪 记录 。 这 里 ， 一 个 研究 环境 是 位 于 英国 
剑桥 的 105 个 活动 客户 ， 另 外 一 个 研究 环境 是 在 美国 华盛顿 州 的 雷 蒙 德 ， 有 超过 36 000 个 活动 客户 。 
评估 工作 从 三 个 方面 比较 了 Squirrel Web 缓存 与 传统 集中 式 Web 缓存 的 性 能 差别 : 

能 够 节省 总 的 外 部 带宽 : 外 部 带宽 的 总 使 用 量 跟 缓存 命中 率 逆 相关 ， 因 为 仅 当 缓存 中 的 对 象 不 能 
命中 时 ， 才 会 发 送 请 求 给 外 部 服务 器 。 对 于 集中 式 Web 缓存 ， 观 测 到 的 缓存 命中 率 是 29% ( 雷 蒙 德 ) 
和 38% (剑桥 )。 使 用 同一 个 活动 日 志 ， 为 Squirrel 缓存 产生 一 个 相似 的 模拟 负载 ， 其 中 每 个 客户 贡献 
100MB 的 磁盘 存储 ， 这 样 观测 到 的 命中 率 和 集中 式 Web 缓存 非常 相似 ， 分 别 是 28% ( 雷 蒙 德 ) 和 
37% (剑桥 )。 由 此 可 得 出 结论 : 两 者 节省 外 部 带宽 的 比例 相似 。 

用 户 访问 Web 对 象 时 感觉 到 的 延迟 : 路 由 著 盖 的 使 用 会 使 得 在 本 地 网 络 中 将 会 有 好 几 条 消息 被 传 
送 〔( 路 由 跳 数 ) ， 它 们 都 用 于 传送 客户 的 请 求 到 负责 缓存 相应 对 象 的 主机 ( 主 结 点 )。 在 雷 蒙 德 的 模拟 
环境 中 ,传送 一 个 GET 请 求 的 路 由 跳 数 的 平均 值 是 4. 11。 在 剑桥 的 模拟 环境 中 ， 传 送 一 个 请 求 的 路 由 
跳 数 的 平均 值 是 1.8。 然 而 ， 对 于 访问 集中 式 Web 缓存 服务 来 说 ， 仅 需要 传送 一 条 消息 。 

在 现代 以 太 网 硬件 的 支持 下 ， 在 局 域 网 中 传输 一 条 消息 只 需 几 毫秒 ， 这 其 中 还 包含 了 TCP 连接 建 
立 的 时 间 ， 但 跨越 互联 网 传送 一 条 TCP 消息 大 概 需 要 10 ~ 100ms。 因 此 ，Squirel 的 作者 们 认为 : 一 个 
要 访问 的 对 象 在 缓存 中 被 找到 所 需要 的 延迟 远 远 小 于 缓存 中 没有 满足 请 求 的 对 象 时 所 需要 的 延迟 。 所 
以 ， 相 对 于 传统 的 集中 式 Web 缓存 ，Squirrel 缓存 也 能 给 用 户 以 相似 的 体验 。 

用 户 结 点 需要 承担 的 计算 和 存储 负载 ; 在 整个 评估 过 程 中 ， 每 个 结 点 为 其 他 结 点 提供 的 缓存 请 求 
服务 次 数 是 极 低 的 ， 仅 为 每 分 钟 0.31 次 (在 雷 蒙 德 的 模拟 环境 中 ) ， 这 说 明 所 消耗 的 系统 资源 的 整体 
比例 是 极 低 的 。 

基于 上 面 描述 的 测量 结果 ，Squirrel 的 作者 们 得 出 结论 : Squirrel 的 性 能 与 集中 式 缓存 的 性 能 相似 。 
当 集中 式 缓存 服务 器 配备 相似 大 小 的 专用 缓存 时 ， 对 于 Web 页 面 的 访问 ，Squirrel 的 延迟 比 集中 式 Web 
缓存 小 一 些 。Squirel 给 客户 结 点 增加 的 额外 负载 很 少 ， 少 到 用 户 可 能 感觉 不 到 。 随 后 ，Squirrel 被 部 
署 到 一 个 具有 52 台 客 户 机 器 的 局 域 网 中 ， 作 为 主 Web 缓存 提供 服务 ， 最 终 的 结果 证 明了 他 们 的 结论 
是 正确 的 。 


10.6.2 OceanStore 文件 存储 


Tapestry 的 开发 者 已 经 为 对 等 文件 存储 设计 并 开发 了 一 个 原型 。 与 PAST 不 同 ， 它 能 够 支持 可 变 文 
件 的 存储 。OceanStore[ Kubiatowicz et al. 2000, Kubiatowicz 2003, Rhea et al. 2001, Rhea et al. 2003] 的 
设计 目标 是 提供 一 个 非常 大 范围 的 、 可 增 量 伸缩 的 持久 存储 工具 ， 以 便 存 储 可 变数 据 对 象 ， 在 网 络 和 
计算 资源 经 常 变化 的 环境 中 ， 仍 提供 对 象 存储 的 长 期 持久 性 和 可 靠 性 。OceanStore 计划 用 于 多 种 应 用 
中 ,包括 类 NFS 文件 服务 的 实现 、 电 子 邮件 托管 服务 、 数据 库 以 及 其 他 涉及 大 量 数据 对 象 共 享 和 持久 
存储 的 应 用 。 

OceanStore 的 设计 还 包括 提供 不 变数 据 和 可 变数 据 的 复制 存储 功能 。 受 Bayou 系统 ( 见 18.4.2 节 ) 
中 保持 对 象 与 其 副本 之 间 的 一 致 性 机 制 的 启发 ， 把 它 适 当 地 裁剪 ， 就 可 以 满足 应 用 的 需要 。 通 过 对 数 
据 进行 加 密 和 使 用 拜占庭 式 协定 协议 〈 参 见 15.5 节 ) 来 更 新 复制 对 象 ， 就 可 以 保证 数据 的 私密 性 和 完 
整 性 。 这 样 做 是 有 必要 的 ， 因为 不 能 对 单个 主机 的 可 信任 度 做 任何 假定 。 
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目前 ， 已 经 构建 了 一 个 OceanStore 的 原型 Pond[ Rhea et al. 2003 ] 。 它 足以 支持 应 用 ， 并 且 为 了 验证 
OceanStore 设计 和 比较 OceanStore 在 性 能 上 与 传统 方法 的 区 别 ， 对 它 的 性 能 用 各 种 基准 测试 进行 了 评 
估 。 在 本 节 后 面 的 部 分 ， 我 们 将 概述 OceanStore/Pond 的 设计 ， 并 总 结 它 的 评估 结果 。 

Pond 使 用 Tapestry 路 由 覆盖 机 制 把 数据 块 放置 在 结 点 上 ， 这 些 结 点 可 能 遍布 整个 互联 网 ， 然 后 
Pond 再 把 请 求 分 发 给 它们 。 

存储 的 组 织 ”OceanStore/Pond 的 数据 存储 在 一 组 块 中 ， 因 此 可 以 把 它们 比喻 为 文件 。 但 是 每 个 对 
象 都 被 表示 为 若干 不 变 版 本 的 有 序 序列 ， 并 且 原 则 上 这 些 版 本 都 是 永久 存储 的 。 对 对 象 的 任何 一 个 更 
新 ， 都 将 导致 该 对 象 生成 一 个 新 版 本 。 这 些 版 本 可 以 依据 在 7.4. 2 节 描 述 的 用 于 创建 和 更 新 对 象 的 写 
时 更 新 技术 共享 不 变 块 。 因 此 ， 如 果菜 些 版 本 之 间 只 有 很 少 的 不 同 点 ， 那 么 存储 这 些 版 本 需要 的 额外 
空间 也 是 很 少 的 。 

对 象 是 按 类 似 UNIX 文件 系统 的 方式 来 构造 的 ， 它 们 的 数据 块 的 组 织 和 访问 都 要 通过 一 个 元 数据 
块 ， 也 叫 根 块 ; 并 且 如 果 有 必要 还 需要 额外 的 间接 数据 块 (参考 UNIX i-nodes) 。 另 外 一 个 级 别 的 间接 
寻 址 被 用 于 将 数据 对 象 一 系列 版 本 和 一 个 持久 的 文本 名 字 或 者 其 他 外 部 可 见 的 名 字 (例如 一 个 文件 的 
路 径 名 ) 关联 起 来 。 图 10-13 MAT MRNAS AR. GUD 被 关联 到 数据 对 象 (AGUID ) 、 对 象 不 同 
版 本 的 根 块 (VGUID) ， 间 接 块 和 数据 块 (BGUID) 。 若 某 个 块 有 多 个 副本 ， 它 们 将 被 存储 到 根据 地 域 
性 和 存储 可 用 性 标准 选择 出 的 对 等 结 点 中 ; 并 且 这 些 块 的 GUID 会 被 每 个 包含 这 些 副 本 的 结 点 发 布 出 
来 (使 用 图 10-5 中 publish() 原 语 ) ， 这 样 ， 客 户 可 以 使 用 Tapestry 来 访问 这 些 块 。 














AGUID 
证 书 “当前 版 本 的 VGUID 

@ | 

RR 

= 

ooo 

| 根 块 | 5 | 

版 本 | | 

i 间接 块 | 

| rh db | 

| BR a a B dk dS | 

版 本 i-1 的 VGUID 

版 本 i 计 1 更 新 的 块 是 d1、d2、d3。 证 书 和 根 块 包含 的 一 些 元 数据 没有 显示 。 所 有 未 标记 的 稍 头 

都 是 BGUID。 


图 10-13 OceanStore 对 象 的 存储 组 织 


有 三 种 类 型 的 GUID 会 被 用 到 ， 如 图 10-14 所 示 。 前 两 种 GUID 通常 用 来 赋 给 存储 在 Tapestry 中 的 
对 象 ， 它 们 都 是 根据 相关 块 的 内 容 使 用 一 个 安全 [pe By 描述 
的 散 列 函数 计算 得 出 的 ， 以 后 可 以 用 它们 来 认 BGUID GUID 一 个 数据 块 的 安全 散 列 码 
证 、 验 证 内 容 的 完整 性 。 因 此 它们 引用 的 块 必须 | vGUID 版 本 GUID ” 某 个 版 本 根 块 的 BGUID 
是 不 可 变 的 ， 因 为 一 个 块 的 内 容 的 任何 改变 都 会 | AGUD ”活动 GUID ”对 象 的 所 有 版 本 的 唯一 标识 符 
使 得 用 GUID 作为 内 容 的 验证 符 变 得 毫 元 意义 。 

第 三 种 标识 符 是 ACUID。 这 些 标 识 符 用 来 图 10-14 OceanStore 所 使 用 的 标识 符 类 型 
(间接 地 ) 引用 一 个 对 象 的 所 有 版 本 构成 的 流 ， 它 使 得 客户 可 以 访问 对 象 的 当前 版 本 或 者 任何 一 个 以 
前 的 版 本 。 既 然 存储 的 对 象 是 可 变 的 ， 那 么 用 来 标识 它们 的 GUID 不 能 依赖 它们 的 内 容 而 产生 ， 因 为 
这 样 会 导致 对 象 内 容 改变 时 对 象 的 GUD 有 关 的 所 有 索引 信息 失效 。 





266 + 第 10 章 对 等 系统 


解决 的 方式 是 ， 当 一 个 新 的 存储 对 象 被 创建 时 ， 创 建 该 对 象 的 客户 会 为 其 提供 一 个 特定 于 应 用 的 
名 字 【〔( 例 如 ， 文件 名 ) ， 对 这 个 名 字 以 及 一 个 代表 对 象 拥有 者 的 公 钥 〈 参 见 11.2.5 节 ) 应 用 一 个 安全 
的 散 列 函数 可 以 产生 出 代表 该 对 象 的 永久 AGUID 。 在 一 个 文件 系统 应 用 中 ， 每 个 文件 名 都 有 一 个 相应 
的 AGUID 存储 到 目录 里 。 

在 对 象 所 有 版 本 构成 的 序列 和 标识 它 的 AGUD 之 间 存 在 一 种 关联 ， 这 种 关联 被 记录 在 一 个 数字 签名 
证 书 中 。 通 过 使 用 主 拷贝 复制 方案 (也 叫 被 动 复制 ， 参 见 18. 3. 1 节 ) ， 数 字 签名 证 书 可 以 被 存储 和 复制 。 
该 证 书 中 包含 当前 版 本 的 VGUID ， 并 且 每 个 版 本 的 根 块 都 包含 有 其 前 一 版 本 的 VGUID， 因 此 它们 构成 了 
一 个 引用 链 ， 使 一 个 持 有 相应 证 书 的 客户 可 以 遍历 整个 版 本 链 ( 见 图 10-13) 。 为 了 确保 关联 是 可 信 的 并 
且 是 由 授权 主体 做 出 的 ， 必 须要 有 数字 签名 证 书 。 期 望 客户 能 够 对 此 进行 检查 。 每 当 创 建 一 个 对 象 的 新 
版 本 时 ， 就 会 有 一 个 新 的 证 书 产生 ， 它 包含 了 新 版 本 的 VGUID 、 时 间 惟 和 一 个 版 本 序列 号 。 

对 等 系统 的 信任 模型 要 求 构建 每 个 新 证 书 时 都 需要 征 得 一 个 小 型 主机 集合 的 同意 〈 将 在 下 面 描 
述 )， 这 一 小 型 主机 集合 称 作 内 部 环 (inner ring) 。 每 当 一 个 新 的 对 象 被 存储 到 OceanStore 中 时 ， 都 会 
选择 若干 主机 作为 该 对 象 的 内 部 环 。 它 们 使 用 Tapestry 中 的 publish() 原 语 来 告知 Tapestry 某 个 新 对 象 的 
AGUID。 随 后 ， 客 户 使 用 Tapestry 把 请 求 获得 该 对 象 证 书 的 请 求 路 由 给 内 部 环 中 的 一 个 结 点 。 

新 的 数字 签名 证 书 会 替代 每 个 内 部 环 结 点 上 的 旧 证 书 ， 并 且 它 还 会 被 分 发 到 更 多 的 二 级 拷贝 。 由 
客户 决定 多 久 检查 一 次 是 否 有 新 版 本 存在 (NFS 中 文件 的 缓存 拷贝 需要 类 似 的 决策 ， 大 多 数 NFS 系统 
在 安装 时 配置 成 客户 与 服务 器 一 致 以 30 秒 的 时 间 窗 口 运 行 ， 参 见 12. 3 节 ) 。 

通常 在 对 等 系统 中 ， 个 人 主机 被 认为 是 不 可 信任 的 。 对 主 拷贝 更 新 需要 得 到 内 部 环 中 所 有 结 点 的 
一 致 同意 。 它 们 使 用 基于 状态 机 的 拜占庭 协定 算法 (该 算法 由 Castro 和 Liskov[2000] 提出 ) 的 一 个 版 
本 来 更 新 对 象 和 对 证 书 进行 数字 签名 。 拜 占 庭 协 定 协议 的 使 用 可 以 确保 证 书 能 够 被 正确 地 维护 ， 即 使 
当 内 部 环 的 某 些 结 点 失效 或 者 有 恶意 行为 时 ， 仍 能 保持 正确 性 。 因 为 拜占庭 协定 的 计算 量 和 通信 开销 
的 增长 速度 与 参与 的 主机 的 数量 的 平方 成 正比 ， 因 此 内 部 环 中 的 主机 数量 应 保持 一 个 很 小 值 ， 并 且 通 
过 使 用 刚才 提 到 的 主 拷贝 策略 ， 数 字 签 名 证 书 可 以 被 广泛 复制 。 

实施 一 次 更 新 还 包括 检查 访问 权限 和 用 其 他 挂 起 的 写 操作 序列 化 这 个 更 新 。 一 且 主 拷贝 的 更 新 过 
程 完成 ， 通 过 使 用 由 Tapestry 管理 的 组 播 路 由 树 ， 就 可 将 新 的 结果 将 发 布 给 二 级 副本 ， 这 些 二 级 副本 
存储 在 内 部 环 外 的 主机 上 。 

由 于 数据 块 具 有 只 读 特性 ， 因 此 它们 的 复制 可 以 采用 不 同 寻 常 的 、 更 有 效 的 存储 机 制 。 该 机 制 将 每 
个 块 分 成 m 个 大 小 相同 的 段 ， 这 些 段 使 用 纠 删 码 (erasure code) [Weatherspoon and Kubiatowicz 2002] 进 
行 编码 ， 最 终 得 到 7 个 段 ， 其 中 n>m。 纠 删 码 的 关键 特性 是 ， 有 可 能 从 其 中 的 个 段 中 重新 构造 出 这 个 
块 。 一 个 系统 如 果 使 用 纠 删 码 ， 当 缺失 的 主机 数量 不 多 于 n - m 时 ， 所 有 的 数据 对 象 仍 是 可 用 的 。 在 
Pond 实现 中 ，m 的 值 是 16, n 的 值 是 32， 因 此 会 耗费 双 倍 的 存储 空间 ， 但 是 该 系统 在 不 丢失 数据 的 情况 
下 ,最 多 可 容忍 16 台 主 机 同时 失效 。 使 用 Tapestry 来 存放 和 检索 存储 在 网 络 中 的 数据 片段 。 

通过 从 利用 纠 删 码 形成 的 片段 中 重新 构造 出 块 ， 我 们 可 获得 高 容错 性 和 数据 高 可 用 性 ,但 是 我 们 也 
要 付出 一 点 代价 。 为 了 使 影响 最 小 ， 所 有 的 块 也 都 使 用 Tapestry 存储 到 网 络 中 。 既 然 块 可 以 通过 片段 重新 构 
造 ， 那 么 可 以 把 这 些 块 当做 一 个 缓存 一 一 这 些 块 不 具备 容错 性 ， 当 需要 存储 空间 的 时 候 ， 可 以 丢弃 它们 。 

性 能 ”开发 Pond 的 目的 不 是 为 了 提供 一 个 产品 实现 ， 而 是 为 了 提供 一 个 原型 ， 以 证 明 可 伸缩 对 等 
文件 服务 的 可 行 性 。Pond 是 用 Java 语言 实现 的 ， 并 且 包 括 了 上 面 列 出 的 几乎 所 有 的 设计 。 用 了 几 个 专 
门 的 基准 测试 来 评估 它 ， 并 且 以 OceanStore 对 象 模拟 了 NFS 的 客户 与 服务 器 。 开 发 者 们 用 Andrew 基准 
[ Howard et al. 1998] 〈 它 模拟 了 一 个 软件 开发 负载 ) 测试 了 NFS 模拟。 测试 的 结果 在 图 10-15 中 给 出 。 
这 些 结果 是 在 运行 Linux 的 使 用 奔腾 II 1GHz 的 PC 机 上 得 到 的 。 局 域 网 的 测试 是 在 一 个 干 兆 以 太 网 上 
完成 的 ,广域网 上 的 结果 是 用 由 互联 网 连接 的 两 组 结 点 得 到 的 。 

作者 们 得 出 的 结论 是 ， 当 OceanStore/Pond 运行 于 一 个 广域网 上 〈 即 互联 网 ) 时 ， 它 的 性 能 在 读 文 
件 方面 明显 地 超越 了 NFS， 而 在 更 新 文件 和 目录 方面 ， 其 性 能 则 大 约 是 NFS 的 三 倍 。 不 过 ， 在 局 域 网 
内 运行 得 到 的 性 能 结果 比较 差 。 总 之 ， 上 述 结 果 表 明 ， 基 于 OceanStore 设计 的 应 用 于 互联 网 范围 内 的 
对 等 文件 服务 ， 对 于 变化 不 是 很 快 的 分 布 式 文件 〈 例 如 网 页 的 缓存 副本 ) 来 说 ， 将 会 是 一 个 高 效 的 解 


第 10 章 对 等 系统 + 267 


决 方案 。 但 是 在 广域网 内 作为 NFS 的 替代 品 来 使 用 ， 人 们 对 它 的 潜力 仍 有 怀疑 ; 在 纯 局 域 网 内 使 用 
时 ， 很 明显 它 就 不 具有 任何 竞争 力 了 。 











| 局 城 网 | 广域网 | 

阶段 Linux NFS Pond Linux NFS Pond 基准 中 的 主要 操作 
| 1 0.0 19 09 28 BAS 

2 0.3 11.0 9.4 16.8 EAs 

3 1.1 1.8 8.3 1.8 读 

4 0.5 1.5 6.9 1.5 jz 

5 2.6 21.0 21.5 32.0 读 和 写 

















L 





数字 表示 运行 Andrew 基 准 测 试 不 同 阶段 所 需 的 时 间 ( 以 秒 计 ) 。 它 有 5 个 阶段 : 1) 递归 地 
构建 子 目录 ; 2) 复制 源 树 ; 3 ) 检查 树 中 所 有 文件 的 状态 ， 但 不 检查 它们 的 数据 ; 4 ) 检 
查 文 件 内 数据 的 每 个 字 节 ; 5 ) 编译 和 链接 文件 。 


图 10-15 模拟 NFS 的 Pond 原型 的 性 能 评估 


这 些 结果 是 在 数据 块 的 存储 没有 使 用 基于 纠 删 码 的 片段 和 复制 的 情况 下 获得 的 。 公 钥 的 使 用 对 
Pond 操作 的 计算 开销 有 实质 性 的 贡献 。 上 面 图 中 的 数字 针对 的 是 512 位 公 钥 的 ， 它 的 安全 性 很 好 ， 但 
并 不 完美 。 当 使 用 1024 位 公 钥 时 ， 对 于 基准 测试 中 涉及 文件 更 新 的 阶段 ,测试 结果 很 差 。 通 过 使 用 专 
门 设计 的 基准 测试 ， 还 获得 了 其 他 一 些 结果 ， 包 括 测量 拜占庭 协定 过 程 对 文件 更 新 延迟 上 的 影响 。 这 
些 结果 都 在 100ms 到 10s 之 间 。 更 新 吞吐 量 的 测试 最 大 达到 了 每 秒 100 次 更 新 。 


10.6.3 ivy 文件 系统 

ER OceanStore 一 样 ，Ivy[ Muthitacharoen et al. 2002 | 也 是 一 个 支持 多 个 读者 和 多 个 写 者 的 读 / 写 文 
件 系统 ， 它 实现 在 一 个 路 由 覆盖 层 和 分 布 式 散 列 地 址 数据 存储 上 。 与 OceanStore REKE, Ivy 文件 系 
统 模仿 了 Sun NFS 服务 器 。Ivy 将 由 Ivy 客户 发 出 的 文件 更 新 请 求 作为 文件 的 状态 存储 在 日 志 中 ; EE 
的 本 地 缓存 不 能 满足 某 个 访问 请 求 时 ， 它 都 会 扫描 这 些 日 志 ， 然 后 重 构 这 个 文件 。 这 些 日 志 记 录 被 保 
存在 DHash 分 布 式 散 列 地 址 存储 服务 中 [ Dabek et al. 2001] 。( 日 志 最 早出 现在 12. 5 节 描述 的 Sprite 分 
布 式 操作 系统 [Rosenblum and Ooosterhout 1992] 中 ， 用 来 记录 关于 文件 的 更 新 ; 但 那 时 它 只 是 用 来 优 | 
化 文件 系统 的 更 新 性 能 。) 455 

Ivy 在 设计 上 解决 了 一 些 以 前 未 解决 的 问题 ， 这 些 问题 源 于 在 部 分 可 信 或 不 可 靠 的 机 器 上 托管 文件 
的 需求 。Ivy 解决 的 问题 包括 

。 维护 文件 元 数据 (参考 UNIX/NES 文件 系统 中 i-node 的 内 容 ) 的 -- 致 性 ， 即 有 可 能 在 不 同 结 点 
并 发 地 更 新 文件 。 它 没有 使 用 锁 机 制 ， 因 为 结 点 或 者 网 络 的 连通 性 故障 可 能 会 导致 系统 无 限 长 
时 间 的 阻塞 。 
参与 结 点 之 间 的 部 分 信任 问题 和 参与 者 主机 易 受 攻击 的 问题 。 要 从 攻击 导致 的 完整 性 失效 中 恢 
复 ， 应 基于 文件 系统 中 的 视图 概念 。 一 个 视图 表示 一 个 状态 ， 该 状态 是 从 一 组 参与 者 所 作 的 更 
新 的 日 志 中 构造 出 来 的 。 参 与 者 可 能 从 系统 中 移 除 了 ， 那 么 视图 被 重新 构造 时 ， 便 不 再 包括 被 
移 除 的 参与 者 做 过 的 更 新 。 因 此 一 个 共享 的 文件 系统 被 看 做 是 由 一 组 (动态 选择 的 ) 参与 者 
实施 的 更 新 合并 在 一 起 得 到 的 结果 。 

。 介 许 网 络 分 区 期 间 继 续 进行 操作 ， 这 会 导致 对 共享 文件 更 新 的 冲突 。 解 决 更 新 冲突 使 用 的 方法 

和 Coda 文件 系统 ( 见 18. 4. 3 节 ) 使 用 的 方法 相似 。 

Ivy 在 每 个 客户 结 点 实现 了 一 个 基于 NFS 服务 器 协议 的 APT (和 12.3 节 的 图 12-9 列 出 的 一 组 操作 
相似 ) 。 客 户 结 点 包括 一 个 Ivy 服务 器 进程 ， 该 进程 基于 键 值 ( GUID， 是 从 日 志 记录 内 容 计算 出 来 的 散 
列 值 ， 使 用 DHash 来 存储 和 访问 局 域 网 或 者 广域网 结 点 上 的 日 志 记 录 (参见 图 10-16) 。DHash 实现 了 
一 个 类 似 于 图 10-4 所 示 的 编程 接口 ， 并 且 在 一 些 结 点 上 复制 所 有 内 容 ， 以 获得 更 好 的 灵活 性 和 可 用 ” [45 可 
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性 。Ivy 的 作者 注意 到 ， 从 原理 上 说 ，DHash 完全 可 以 被 其 他 分 布 式 散 列 地 址 存储 (如 Pastry, Tapestry 
或 者 CAN) 代替 。 








图 10-16 Ivy 系统 体系 结构 


一 个 Wy 文件 存储 由 一 组 更 新 日 志 组 成 ， 其 中 每 个 参与 者 拥有 一 个 日 志 。 每 个 Ivy 参与 者 只 能 在 自 
己 的 日 志 中 追加 内 容 , 但 是 可 以 读 取 组 成 文件 系统 的 所 有 日 志 。 将 更 新 单独 存储 在 各 个 参与 者 的 日 志 
中 ， 这 样 当 安全 性 遭 到 破坏 或 者 出 现 一 致 性 故障 时 ， 这 些 更 新 可 以 回 滚 。 

一 个 Ivy 日 志 是 由 一 系列 日 志 条 目 按照 时 间 反 序 构成 的 链表 。 每 个 日 志 条 目 都 是 带 有 时 间 截 的 记 
录 ， 代 表 客 户 想 要 更 改 文 件 内 容 或 文件 元 数据 或 目录 。DHash 使 用 记录 的 160 位 SHA-1 散 列 值 作 为 键 ， 
用 来 放置 和 检索 该 记录 。 每 个 参与 者 也 会 维护 一 个 可 变 的 DHash ik 〈 也 叫 日 志 头 部 ) ， 它 指向 该 参与 
者 最 近 的 日 志 记 录 。 可 变 的 块 都 由 它们 的 拥有 者 赋予 一 个 加 密 的 公 钥 对 。 这 些 块 的 内 容 会 使 用 一 个 私 
钥 加 以 签名 ， 此 后 就 要 根据 相应 的 公 钥 对 内 容 进行 认证 。 当 读 取 多 个 日 志 时 ，Tvy 使 用 版 本 向 量 〈 即 向 

EKAR, 2914.44) 为 所 有 的 日 志 条 目 进行 一 个 全 排序 。 

DHash 使 用 日 志 记 录 的 内 容 的 SHA- 1 散 列 值 作为 键 值 来 存储 该 日 志 记 录 。 使 用 DHash 键 值 作 为 链 
接 ， 将 日 志 记 录 按 照 时 间 戳 顺序 构成 一 个 链表 。 日 志 头 部 持 有 最 新 日 志 条 目的 键 。 为 了 存储 和 检索 日 志 
头 部 ,日 志 的 拥有 者 会 计算 出 一 个 公 钥 对 。 公 钥 的 值 将 作为 它 的 DHash 键 ， 而 私 钥 被 拥有 者 用 来 对 日 志 
头 签名 。 任 何 持 有 公 铀 的 参与 者 都 可 以 取得 相应 的 日 志 头 ， 并且 使 用 日 志 头 来 访问 日 志 中 的 所 有 记录 。 

假设 一 个 文件 系统 当前 只 有 一 个 日 志 ， 这 时 有 一 个 需要 从 文件 中 读 取 字 节 序列 的 请 求 到 来 ， 那 么 
对 于 这 个 请 求 ， 正 规 的 执行 方法 需要 首先 对 日 志 进 行 顺序 扫描 ， 以 发 现 日 志 中 对 文件 相关 部 分 的 更 新 
记录 。 日 志 并 没有 长 度 限制 ,但 是 当 找 到 能 够 满足 所 需 的 字 节 序列 的 头 一 个 或 多 个 记录 时 ， 上 述 扫描 
就 会 中 止 。 

如 果 要 访问 一 个 多 用 户 、 多 日 志 的 文件 系统 ， 正 规 的 算法 还 包括 比较 日 志 记录 中 的 向 量 时 间 稚 ， 
以 确定 更 新 的 次 序 〈 因 为 不 能 假设 存在 一 个 全 局 时 钟 ) 。 

为 一 个 进程 执行 该 操作 所 需 的 时 间 就 像 完 成 一 个 read 请 求 这 样 简单 的 操作 所 需 的 时 间 一 样 ， 也 可 能 
是 很 长 的 。 通 过 结合 使 用 本 地 缓存 和 快照 ， 可 以 将 时 间 降 低 到 一 个 可 以 容忍 、 可 以 预测 的 范围 内 。 快 昭 
是 文件 系统 的 一 个 代表 ， 由 每 个 参与 者 作为 使 用 日 志 的 副产品 在 本 地 计算 并 存储 。 如 果 一 个 参与 者 被 当 
前 系统 逐 出 ， 这 些 快 照 可 能 就 不 再 有 效 ， 因 此 从 这 种 意义 上 说 ， 它 们 构成 了 文件 系统 的 一 个 软 表示 。 

更 新 一 致 性 是 关闭 时 开放 (close-to-open) ， 也 就 是 说 ， 一 个 应 用 程序 对 一 个 文件 实施 的 更 新 不 会 
被 其 他 进程 看 到 ， 直 到 该 文件 被 关闭 为 止 。 使 用 关闭 时 开放 的 一 致 性 模型 可 以 确保 当 文件 关闭 时 ， 所 
有 在 该 文件 上 的 write 操作 都 可 以 保存 到 客户 结 点 上 ; 然后 所 有 write 操作 构成 的 集合 被 写 人 一 个 日 志 
记录 ， 同 时 产生 一 个 新 的 日 志 头 部 并 记录 下 来 (这 是 对 NFS 协议 的 一 个 扩展 ， 这 样 可 以 确保 当 一 个 应 
用 程序 中 的 close 操作 发 生 时 ， 该 事件 能 够 被 通知 给 Ivy 服务 器 进程 ) 。 

既然 每 个 结 点 都 有 一 个 Ivy 服务 器 ， 并 且 它 们 都 独立 地 将 更 新 分 别 存储 在 单独 日 志 中 ， 每 个 结 点 都 
不 会 与 其 他 结 点 相互 协作 ， 那 么 为 了 将 文件 的 内 容 构造 出 来 ， 必 须 在 读 取 日 志 时 将 存储 在 这 些 日 志 中 的 
所 有 更 新 序列 化 。 写 人 日 志 记录 中 的 版 本 向 量 可 以 用 于 大 多 数 更 新 的 排序 ， 但 是 有 可 能 会 出 现 冲 突 的 
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更 新 ， 这 个 问题 可 以 通过 特定 于 应 用 的 自动 化 或 手工 方法 解决 ， 就 像 在 Coda 中 那样 ( 见 18.4.3 节 ) 。 

通过 将 已 经 提 到 的 一 些 机 制 结合 使 用 ， 可 以 获得 数据 的 完整 性 : 日 志 记录 是 不 可 改变 的 ， 它 们 的 
地 址 就 是 它们 内 容 的 安全 散 列 值 ;， 通 过 检查 日 志 内 容 的 公 钥 签 名 ， 可 以 验证 日 志 头 部 。 但 是 信任 模型 
可 能 会 使 某 些 恶意 参与 者 获得 文件 系统 的 访问 权限 。 例 如 ， 它 们 可 能 恶意 地 删除 自己 持 有 的 文件 。 当 
检测 到 这 类 事件 时 ， 这 些 恶 意 的 参与 者 会 被 从 当前 视图 中 删除 ; 它们 的 日 志 不 再 用 于 计算 文件 系统 的 
内 容 ， 并 且 被 它们 恶意 删除 的 文件 在 新 的 视图 中 会 被 重新 生成 。 

Ivy 的 作者 们 使 用 修改 过 的 Andrew 基准 测试 [Howard et al. 1988] 来 比较 Ivy 和 标准 NFS 服务 器 在 
局 域 网 和 广域网 环境 中 的 性 能 。 他 们 考虑 : 1) 使 用 本 地 DHash 服务 器 的 Ivy 与 单个 本 地 NFS 服务 器 相 
比 ; 2) 使 用 几 个 位 于 远程 互联 网 站 点 的 DHash 服务 器 的 Ivy 与 单个 远程 NFS 服务 器 相 比 。 他 们 还 把 性 
能 特征 作为 一 个 函数 ， 该 函数 有 三 个 参数 : 视图 中 参与 者 的 数量 、 同 时 进行 写 操作 的 参与 者 数量 以 及 
用 来 存储 日 志 的 DHash 服务 器 数量 。 

他 们 发 现 ， 在 大 部 分 基准 测试 中 ，Fvy 的 执行 时 间 在 NFS 的 两 倍 之 内 ， 而 对 于 所 有 的 测试 ，Ivy 的 
执行 时 间 在 NFS 的 三 们 以内。 为 广域网 部 署 的 Ivy 的 执行 时 间 是 为 局 域 网 部 署 的 Ivy 的 执行 时 间 的 10 
倍 或 更 多 ， 不 过 远程 NES 服务 器 也 有 相似 的 比例 。 关 于 性 能 评估 的 细节 可 以 在 Ivy 的 论文 中 找到 
[ Muthitacharoen et al. 2002 ] 。 但 是 我 们 应 该 注意 到 ，NFS 并 不 是 被 设计 用 于 广域网 的 ，Andrew 文件 系 
统 以 及 其 他 一 些 最 近 开 发 出 来 的 基于 服务 器 的 系统 (例如 xFS[ Anderson et al. 1996]) 在 广域网 部 署 方 
面 可 以 提供 更 高 的 性 能 。 它 们 应 该 具有 更 好 的 与 Ivy 做 比较 的 基础 。Ivy 最 主要 的 贡献 是 : 在 一 个 部 分 
可 信 的 环境 中 (对 于 跨越 多 个 组 织 和 管辖 区 的 大 规模 分 布 式 系统 来 说 ， 这 样 的 环境 是 不 可 避免 的 ) 提 
供 了 一 个 新 方法 来 管理 安全 性 和 完整 性 。 


10.7 小 结 


最 早出 现 的 对 等 体系 结构 是 为 了 支持 大 规模 的 数据 共享 ,例如 在 互联 网 范围 内 使 用 的 Napster 以 及 专门 
用 于 数字 音乐 共享 的 Napster 派生 系统 。 它 们 的 大 量 使 用 与 版 权 法 相 冲突 ， 但 这 并 没有 降低 它们 在 技术 上 的 
重要 性 ， 尽 管 技术 上 的 一 些 缺陷 限制 它们 只 能 部 署 在 那些 数据 的 完整 性 和 可 用 性 保证 不 重要 的 应 用 中 。 

后 续 的 一 些 研究 促进 了 对 等 中 间 件 平台 的 发 展 ， 它 们 能 够 将 请 求 传递 给 位 于 互联 网 任意 位 置 上 的 
数据 对 象 。 在 结构 化 方法 中 ， 对 象 使 用 CUID Fh, CUD 是 一 个 纯粹 的 名 字 ， 不 含有 任何 下 地址 信 
息 。 根 据 每 个 中 间 件 系统 特有 的 映射 函数 ， 数 据 对 象 会 被 放置 到 相应 结 点 上 。 数 据 传递 需要 使 用 中 间 
件 中 的 路 由 覆盖 来 完成 ， 它 维护 一 个 路 由 表 ， 并 且 能 够 沿 着 路 由 线路 不 断 转发 请 求 ， 而 路 由 线路 是 根 
据 所 选择 的 映射 函数 计算 出 相应 的 距离 来 确定 的 。 在 无 结构 化 方法 中 ， 结 点 自身 形成 一 个 自 组 织 网 络 ， 
向 邻居 传播 搜索 ， 以 便 找 到 合适 的 资源 。 已 经 开发 了 几 个 策略 来 提高 搜索 功能 的 性 能 和 增加 系统 整体 
的 可 伸缩 性 。 

基于 产生 CUD 的 安全 散 列 函数 ， 中 间 件 平台 提供 了 数据 完整 性 保证 ; 基于 在 儿 个 结 点 上 复制 对 
象 以 及 具有 容错 能 力 的 路 由 算法 ， 中 间 件 平台 提供 了 数据 可 用 人 性 保证 。 

中 间 件 平台 已 经 被 部 署 在 几 个 大 规模 试验 性 应 用 中 ， 对 其 也 进行 了 改进 和 评估 工作 。 最 近 的 评估 结 
果 表 明 : 该 技术 已 经 可 以 部 署 在 那些 包含 大 量 共享 数据 对 象 和 大 量 用 户 的 应 用 中 。 对 等 系统 的 优点 包括 : 

© 具有 利用 主机 中 未 使 用 资源 《存储 资源 、 处 理 器 资源 ) 的 能 力 ; 

。 具有 很 好 的 伸缩 性 ， 可 以 支持 数量 众多 的 客户 和 主机 ， 在 网 络 链接 和 主机 计算 资源 方面 能 获得 

极 好 的 负载 均衡 ; 

。 中 间 件 平台 的 自 组 织 特性 使 得 系统 开销 很 大 程度 上 不 依赖 于 所 部 署 的 窜 户 和 主机 数量 。 

对 等 系统 的 缺点 和 当今 的 研究 主题 包括 : 

© 当 它 们 应 用 于 可 变数 据 存储 时 ， 相 对 于 可 信 的 、 集 中 式 服务 ， 它 们 的 开销 有 点 昂贵 。 

© 期 望 它们 为 客户 和 主机 提供 匿名 ， 但 是 对 于 匿名 还 没有 强 有 力 的 保证 。 


练习 
10.1 早期 的 文件 共享 应 用 《〈 如 Napster) 因为 需要 维护 一 个 集中 式 的 索引 资源 并 且 还 要 维护 持 有 这 些 索引 
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资源 的 主机 ， 因 此 在 可 伸缩 性 方面 受到 了 很 大 限制 。 关 于 索引 问题 ， 你 能 想到 其 他 解决 方法 吗 ? 
(第 428 ~430 页 , 第 435 页 ，18.4 节 ) 
维护 可 用 资源 索引 问题 是 和 具体 应 用 相关 的 。 如 果 你 已 经 给 出 了 10. 1 题 的 一 些 答案 ， 请 考虑 它们 对 
于 下 面 的 应 用 是 否 适合 : 
1) 音乐 和 多 媒体 文件 的 共享 ， 
2) 需要 长 期 存储 的 归档 材料 ， 例 如 杂志 或 报纸 内 容 ; 
3) 通用 的 可 读 写 文件 的 网 络 存储 。 
用 户 希 望 常规 服务 器 (例如 ，Web 服务 器 或 文件 服务 器 ) 能 够 给 他 们 提供 哪些 方面 的 保障 ? 
(1.5.5 47) 
常规 服务 器 提供 的 保障 有 可 能 由 于 下 述 原因 遭 到 破坏 ， 
1) 对 主机 的 物理 损害 ; 
2) 系统 管理 员 或 他 们 的 管理 者 的 错误 或 不 一 致 性 ; 
3) 对 系统 软件 安全 性 的 成 功 的 攻击 ; 
4) 硬件 或 软件 错误 。 
对 于 上 述 每 种 破坏 类 型 ， 各 给 出 两 个 可 能 发 生 的 事件 例子 。 它 们 当中 哪些 违背 了 信任 体系 ， 哪 
些 是 犯罪 行为 ? 如 果 它 们 发 生 在 一 台 个 人 电脑 上 ， 而 该 电脑 为 一 个 对 等 服务 贡献 了 一 些 资源 ， 那 么 
它们 算 不 算 违背 了 信任 体系 ?为 什么 这 是 和 对 等 系统 相关 的 ? (11.1.1 节 ) 
对 等 系统 通常 依赖 不 可 靠 的 、 易 变 的 计算 机 系统 维护 它们 的 大 多 数 资源 。 作 为 技术 发 展 的 结果 ， 信 
用 已 经 成 为 一 种 社会 现象 。 易 变性 〈 即 不 可 预测 的 可 用 性 ) 也 常常 是 因为 人 们 自身 的 行为 造成 的 。 
详细 阐述 你 在 10. 4 题 中 给 出 的 答案 ， 并 根据 所 使 用 计算 机 的 下 列 属性 ， 讨 论 几 种 方式 之 间 可 能 存在 
的 区 别 。 
1) 所 有 权 ; 
2) 地 理 位 置 ; 
3) 网 络 连通 性 ; 
4) 所 属国 家 或 管辖 区 。 
在 对 等 存储 服务 中 ， 关 于 放置 数据 对 象 的 策略 ， 你 有 什么 建议 ? 
评价 你 所 在 的 环境 中 个 人 计算 机 的 可 用 性 和 可 信任 性 。 你 应 该 评估 以 下 方面 : 
正常 运行 时 间 : 计算 机 每 天 有 多 少 小 时 是 正常 运行 并 且 连 接 到 互联 网 的 ? 
软件 一 致 性 : 软件 是 否 由 一 个 称职 的 技术 人 员 管 理 ? 
安全 性 : 计算 机 能 否 受到 全 面 保护 ， 免 于 被 它 的 用 户 或 其 他 人 息 改 ? 
基于 你 的 评估 ， 讨 论 在 你 评估 的 计算 机 集合 中 运行 数据 共享 服务 的 可 行 性 ， 并 列 出 在 对 等 数据 
共享 服务 中 必须 考虑 的 问题 。 (第 431 ~432 页 ) 
解释 为 什么 使 用 对 象 的 安全 散 列 来 识别 对 象 并 将 消息 路 由 给 它 ， 能 确保 是 不 会 受到 损害 的 。 这 个 散 
列 函 数 应 该 具有 什么 样 的 性 质 ? 当 很 大 一 部 分 对 等 结 点 失效 时 怎样 维护 完整 性 ? 
i (第 426 页 , 第 453 H, 11.4.34) 
经 常 有 人 认为 ， 对 等 系统 可 以 为 访问 资源 的 客户 或 提供 资源 访问 的 主机 提供 匿名 支持 。 
对 这 些 主 张 进行 讨论 。 提 出 一 种 方式 ， 它 也 许 能 够 改善 对 匿名 进行 攻击 的 抵抗 力 。 (第 429 页 ) 
路 由 算法 会 根据 某 个 地 址 空间 内 对 距离 的 估计 选择 下 一 跳 。Pastry 和 Tapestry 使 用 的 都 是 环 状 的 线性 
地 址 空间 ， 在 这 个 空间 中 使 用 一 个 函数 ， 基 于 GUID 在 数值 上 的 不 同 来 确定 结 点 之 间 的 分 离 度 。 
Kademlia 对 GUID 进行 异 或 运算 。 这 对 于 维护 路 由 表 有 什么 帮助 ? 异 或 运算 是 否 能 为 距离 指标 提供 
合适 的 特性 ? (第 435 页 [ Maymounkov and Mazieres 2002 ] ) 
当 模拟 评估 Squirrel 对 等 Web 缓存 服务 时 ， 路 由 一 个 请 求 给 一 个 缓存 条 目 ， 在 Redmond 流量 场景 
中 ， 平 均 需 要 4. 11 Bk; 在 Cambridge 流量 场景 中 ， 平 均 需 要 1. 8 跳 。 请 解释 这 个 现象 ， 并 且说 明 它 


能 够 支持 Pastry 声称 的 理论 上 的 性 能 。 (第 436 页, 3% 450 页 ) 
在 非 结构 化 对 等 系统 中 ， 通 过 采用 特定 的 搜索 策略 能 大 大 改进 搜索 结果 。 比 较 和 对 比 扩展 环 搜索 和 
随机 漫步 策略 ， 重 点 说 明 每 个 方法 何 时 可 能 有 效 。 (第 446 页 ) 
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在 分 布 式 系统 中 ， 资 源 的 私密 性 、 完 整 性 以 及 可 用 性 都 需要 有 相应 的 措施 加 以 保证 。 安 全 性 攻击 
会 采取 窃听 、 伪 装 、 算 改 和 拒绝 服务 等 形式 。 安 全 的 分 布 式 系统 的 设计 者 们 必须 在 攻击 者 可 能 了 解 系 
统 所 使 用 的 算法 和 部 署 计算 资源 的 环境 下 解决 暴露 的 服务 接口 和 不 安全 的 网 络 所 引发 的 问题 。 

密码 学 为 保证 消息 的 私密 性 和 完整 性 以 及 消息 认证 奠定 了 基础 。 为 使 密码 学 得 以 应 用 ， 需 要 有 精 
心 设计 的 安全 性 协议 。 加 密 算法 的 选择 和 密 钥 的 管理 是 安全 机 制 的 效率 、 性 能 和 可 用 性 的 关键 。 公 钥 
加 密 算法 使 得 分 发 密 铀 比较 容易 ， 但 对 大 数据 量 数 据 的 加 密 而 言 其 性 能 不 够 理想 。 相 比 之 下 ， 密 钥 加 
密 算 法 更 适合 大 批 的 加 密 任务 。 混 合 型 协议 , 例如 TLS (传输 层 安 全 ) 用 公 铀 加 密 先 建立 一 个 安全 通 
道 ， 然 后 使 用 通道 交换 密 钥 ， 并 将 此 密 钥 用 于 后 续 的 数据 交换 。 

可 为 数字 信息 签名 ， 生 成 数字 证 书 。 通 过 数字 证 书 ， 可 以 使 用 户 和 组 织 建 立 起 互相 信任 。 

本 章 包括 一 个 案例 ， 研 究 Kerberos, TLS/SSL 和 802. 11 WiFi 三 个 系统 的 安全 性 设计 和 安全 机 制 的 部 署 。 


11.1 简介 


在 2.4.3 节 中 ,我 们 曾经 给 出 过 一 个 简单 的 模型 用 于 解释 分 布 式 系统 对 于 安全 性 的 需求 。 我 们 总 
结 出 ， 分 布 式 系 统 对 安全 机 制 的 需求 源 自 共享 资源 的 需求 。( 对 于 不 需要 共享 的 资源 ， 通 常 需要 将 它们 
同 外 部 访问 隔离 开 。) 如 果 我 们 将 共 亭 资源 也 看 做 对 象 ， 那 么 任何 封装 了 共享 对 象 的 进程 都 要 受到 保 
护 ， 而 且 它 们 之 间 进 行 交 互 的 通信 信道 也 应 当 受到 保护 ， 以 避免 可 预料 的 任何 形式 的 攻击 。2. 4. 3 节 
中 介绍 的 模型 有 利于 理解 安全 需求 ， 总 结 如 下 : 
。 进程 封装 了 资源 (包括 程序 语言 层 的 对 象 和 系统 定义 的 资源 ) ， 并 且 人 允许 客户 通过 接口 访问 这 
些 资源 。 已 授权 的 主体 〈 用 户 或 进程 ) 可 以 操作 这 些 资源 ， 而 资源 必须 被 保护 以 避免 未 授权 
的 访问 〈 见 图 2-17) 。 

。 进程 通过 多 用 户 共享 的 网 络 进行 交互 。 敌 人 【攻击 者 ) 也 可 以 访问 这 个 网 络 ， 它 们 能 够 复制 
或 者 尝试 读 取 任何 在 网 络 中 传输 的 消息 ， 也 可 以 向 网 络 中 插入 任何 的 消息 ， 这 些 欺 骗 性 的 消息 
可 以 被 发 送 到 网 络 上 的 任何 地 方 ， 并 且 谎 称 它们 来 自 其 他 地 方 ( 见 图 2-18)。 

无 论 是 在 数字 世界 里 还 是 在 物理 世界 里 ， 无 论 是 个 人 还 是 组 织 ， 对 信息 和 资源 的 私密 性 和 完整 性 
的 需求 是 广泛 存在 的 。 这 种 需求 源 于 对 共享 资源 的 期 望 。 在 物理 世界 中 ,组织 采用 安全 策略 (security 
policy) ， 在 指定 范围 内 允许 资源 的 共享 。 例 如 ， 某 公司 只 允许 公司 的 职员 以 及 受信 赖 的 访问 者 进入 办 
公 大 楼 ; 而 文档 的 安全 策略 可 以 规定 某 些 工作 组 的 成 员 可 以 访问 指定 类 的 文件 。 也 可 以 针对 单个 文件 
和 用 户 制 定安 全 策略 。 

安全 策略 通过 安全 机 制 〈security mechanism) 执行 。 例 如 ， 某 人 是 否 人 允许 进 和 办公 大 楼 可 以 由 接 
待 员 来 决定 ， 他 给 受信 和 赖 的 访问 者 派发 通行 证 ， 再 由 保安 人 员 或 者 电子 门 锁 来 验证 谁 能 进入 大 楼 。 对 
纸 质 文档 的 访问 ， 通 常 可 以 采用 加 密 和 限制 性 地 发 送 等 手段 来 控制 。 在 电子 世界 中 ， 安 全 策略 和 安全 
机 制 的 区 别 同 样 重要 ; 没有 它 ， 就 很 难 判断 一 个 系统 是 否 安全 。 安 全 策略 和 所 使 用 的 技术 无 关 ， 就 像 
在 门 上 装 锁 ， 这 并 不 能 确保 办 公 大 楼 的 安全 ， 除 非 为 它 的 使 用 制定 一 些 策略 (例如 ， 当 没有 人 在 入 口 
处 守卫 的 时 候 ， 门 就 会 被 锁 上 ) 。 我 们 所 描述 的 安全 机 制 本 身 并 不 能 保证 系统 的 安全 。 在 11.1.2 节 ， 
我 们 将 概述 各 种 简单 的 电子 商务 场景 中 的 安全 需求 ， 并 说 明 每 个 环境 中 需要 的 安全 策略 。 

本 章 的 重点 是 分 布 式 系 统 中 数据 和 其 他 资源 的 保护 机 制 ， 这 种 保护 机 制 允许 计算 机 在 安全 策略 许 
可 的 范围 内 进行 交互 。 这 些 机 制 用 来 实施 安全 策略 以 应 付 大 部 分 已 确定 的 攻击 。 

密码 学 的 任务 ”数字 密码 学 为 大 多 数 计算 机 安全 机 制 黄 定 了 基础 ， 但 是 注意 下 面 这 一 点 很 重要 ， 
即 计算 机 安全 同 密码 学 是 两 个 不 同 的 主题 。 密 码 学 是 信息 编码 的 艺术 ， 它 通过 一 些 特定 的 格式 ， 仅 允 
许 特 定 的 接收 者 解密 并 访问 。 类 似 于 传统 交易 中 的 签名 ， 密 码 学 也 可 以 用 来 验证 信息 的 真实 性 。 
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密码 学 有 一 段 悠久 的 耐人寻味 的 历史 。 军 方 对 安全 通信 的 需求 以 及 截获 并 解密 敌人 信息 的 需求 ， 
使 得 当时 一 些 杰 出 的 数学 家 为 此 花费 了 大 量 的 精力 。 读 者 如 果 对 这 段 历史 感 兴趣 ， 可 以 参阅 由 David 
Kahn[ Kahn 1967, 1983, 1991] 和 Simon Singh[ Singh 1999] 所 编写 的 著作 。Whitfield Difhie， 公 和 钥 加 密 
的 发 明 人 之 一 ， 用 第 一 手 的 信息 记录 了 近代 密码 学 的 历史 和 加 密 策略 [Diffie 1988, Diffie and Landau 
1998], 

以 前 ， 政 治 军事 组 织 控制 密码 学 的 发 展 和 使 用 。 直 到 最 近 ， 密 码 学 才 被 真正 地 解放 。 现 在 ， 它 成 
为 一 个 大 型 、 活 路 的 研究 团体 中 一 个 开放 的 研究 课题 。 研 究 结果 也 相继 在 各 种 书籍 、 杂 志和 会 议 上 发 
表 。Schneier 的 《应 用 密码 学 》 (Applied Cryptography) [1996] 的 出 版 成 为 开放 该 领域 知识 的 一 个 里 
程 碑 。 这 是 第 一 本 包括 了 很 多 重要 算法 且 附 带 源码 的 著作 ， 这 也 是 勇敢 的 一 步 。 在 本 书 第 一 版 出 版 
(1994 Æ) 之 前 ， 这 类 出 版 物 的 合法 地 位 还 是 模糊 不 清 的 。 在 现代 密码 学 的 大 多 数 领域 ，Schneier 的 书 
具有 相当 的 权威 性 。Schneier 与 他 人 合 著 的 新 书 [Ferguson and Schneier 2003] 中 对 计算 机 密码 学 进行 
了 精彩 的 介绍 ， 其 中 讨论 了 目前 使 用 的 所 有 的 重要 的 算法 和 技术 ， 其 中 有 些 算 法 和 技术 在 Schneier 早 
年 的 著作 中 有 所 涉及 。 此 外 ，Menezes 等 人 [1997] 也 出 版 了 一 本 有 很 强 理论 基础 的 实用 性 手册 《Net- 
work Security Library) (MARKEE) [www. secinf net] 是 有 关 实 践 知 识 和 经 验 的 一 个 很 出 色 的 在 线 
资源 。 

Ross Anderson 的 《Security Engineering) [ Anderson 2001] 也 是 一 本 很 出 色 的 书 ， 其 中 有 丰富 的 从 
现实 世界 的 情况 和 系统 安全 故障 中 得 出 的 系统 安全 设计 的 实例 。 

密码 学 的 非 军 事 应 用 和 分 布 式 计 算 机 系统 对 安全 性 的 需求 的 巨大 增长 在 很 大 程度 上 推进 了 密码 学 
的 开放 性 。 于 是 ， 在 军事 领域 以 外 的 第 一 个 自主 的 密码 学 研究 团体 应 运 而 生 。 

密码 学 对 公众 开放 并 人 允许 公众 使 用 以 来 ， 密 码 技术 得 到 了 突飞猛进 的 发 展 ， 不 仅 体 现在 对 抗 敌人 
的 攻击 能 力 方面 ， 而 且 体 现在 密码 技术 部 署 的 方便 性 上 。 公 钥 密 码 学 就 是 密码 技术 开放 以 后 获得 的 成 
果 之 一 。 再 举 一 个 例子 ，DES 标准 加 密 算法 最 初 是 一 个 军事 秘密 ， 只 能 由 美国 军 方 和 政府 部 门 应 用 ， 
但 当 它 最 终 公布 并 被 成 功 地 破解 之 后 ， 反 而 促进 了 密码 学 的 发 展 ， 产 生出 更 多 更 强 有 力 的 密 钥 加 密 
算法 。 

另 一 个 进步 是 使 常见 术语 和 方法 得 到 发 展 。 例 如 ， 为 一 个 受 保护 的 事务 中 的 角色 (主体 ) 选取 一 
组 茹 和 的 名 字 。 为 主体 和 攻击 者 都 起 一 个 熟悉 的 名 字 ， 有 i 





利于 阐明 安全 协议 和 对 这 些 安全 协议 的 潜在 攻击 ， 这 是 识 第 二 参加 者 


一 步 。 图 11-1 示 三 方 或 四 方 协议 的 参加 者 
别 其 弱点 的 重要 一 步 。 图 中 显示 的 名 字 在 安全 文献 中 = it 的 参加 者 


广 为 使 用 ,我 们 在 书 中 也 将 使 用 这 些 名 字 。 我 们 还 不 知道 
这 些 名 字 的 由 来 。 据 我 们 所 知 ， 它 们 最 初出 现 于 RSA AH 
算法 的 论文 [Rivest et al. 1978] 中 。 对 于 它们 的 使 用 的 注 


释 ， 请 参阅 Gordon[ 1984], 图 11-1 安全 协议 中 角色 的 常见 名 字 


11. 1.1 威胁 和 攻击 


有 一 些 威胁 是 很 明显 的 。 例 如 ， 在 大 多 数 的 本 地 网 络 中 ， 可 以 很 容易 地 在 互 连 的 计算 机 上 构造 并 
运行 一 个 程序 ， 用 于 获得 在 其 他 计算 机 间 传 递 的 消息 的 拷贝 。 另 一 些 威胁 则 较为 隐藏 ， 例 如 ， 当 窗户 
不 能 认证 服务 器 时 ， 这 个 程序 就 安装 自己 ， 并 取代 真实 的 文件 服务 器 ， 从 而 获得 客户 发 送 的 机 密 信 息 。 

除了 直接 破坏 而 导致 信息 和 资源 的 丢失 或 损坏 外 ， 攻 击 者 还 可 能 向 系统 拥有 者 做 出 系统 是 不 安全 
的 欺骗 性 声明 。 为 了 避免 这 些 欺 骗 性 声明 ， 拥 有 者 必须 证 明 系统 在 受到 攻击 后 仍然 是 安全 的 ， 或 者 为 
这 个 可 疑 时 期 中 的 每 个 事务 都 产生 一 个 日 志文 件 来 反 驶 这 些 声 明 。 一 个 常见 的 例子 就 是 自动 取款 机 上 
的 “假象 提 款 ”问题 。 最 好 的 方法 就 是 银行 提供 一 个 由 账户 持 有 者 进行 了 数字 签名 的 事务 记录 ， 而 第 
三 方 无 法 伪造 出 这 个 签名 。 

安全 的 主要 目的 是 只 允许 获得 授权 的 主体 访问 信息 和 资源 。 安 全 威胁 一 般 可 以 分 为 三 大 类 : 
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第 11 章 安全 性 + 273 


aa (leakage) 





未 经 授权 的 接收 方 获 得 了 信息 。 

荃 改 〈tampering) 一 一 未 经 授权 对 信息 进行 收 动 。 

恶意 破坏 (vandalism) 一 干扰 系统 的 正确 操作 ， 对 破坏 者 本 身 无 益 。 

对 分 布 式 系统 的 攻击 依赖 于 对 现 有 通信 通道 的 访问 或 者 伪装 成 授权 的 连接 来 建立 新 的 通道 。 (我 
们 用 术语 “通道 ”来 指 代 任 何 进程 间 的 通信 机 制 .) 可 以 按照 恶意 使 用 通道 的 方式 ， 对 攻击 方法 进行 
进一步 的 分 类 : 

HH (eavesdropping) 一 一 未 经 授权 获得 消息 副本 。 

伪装 (masquerading) 一 一 在 未 经 授权 的 情况 下 ， 用 其 他 主体 的 身份 收发 消息 。 

WAR (message tampering) 一 一 在 将 消息 传递 给 接收 者 之 前 ， 截 获 并 修改 消息 的 内 容 。 中 间 人 
攻击 就 是 一 种 消息 算 改 方式 ， 其 中 攻击 者 截获 了 密 钥 交换 的 第 一 个 消息 来 建立 安全 通道 。 攻 击 者 蔡 换 
掉 发 送 方 与 接收 方 达成 的 密 钥 ， 以 便 让 自己 可 以 对 后 继 消息 进行 解密 ， 然 后 再 将 消息 用 正确 的 密 钥 加 
密 后 ， 传 递 出 去 。 

重 发 (replaying) 
息 都 可 能 有 效 。 

拒绝 服务 (denial of service) 一 一 用 大 量 的 消息 使 通道 或 者 其 他 资源 瘫痪 ， 使 得 其 他 访问 被 拒绝 。 

这 些 都 是 理论 上 存在 的 威胁 ,但 实际 上 这 些 攻击 是 怎样 实现 的 呢 ? 成 功 的 攻击 取决 于 发 现 系 统 安 
全 方面 的 漏洞 。 和 遗憾 的 是 ， 在 现 有 系统 中 普遍 存在 安全 漏洞 ， 有 的 甚至 很 明显 。Cheswick 和 Belovin 
[1994] 指出 了 42 种 缺陷 ， 他 们 认为 这 些 在 广泛 使 用 的 互联 网 系统 及 其 组 件 中 的 存在 的 缺陷 会 带 来 很 
大 的 风险 。 这 些 弱 点 包括 从 口令 猜测 到 对 完成 网 络 时 间 协 议 或 处 理 邮 件 传输 的 程序 的 攻击 。 其 中 有 些 
已 经 成 为 人 们 所 熟知 的 攻击 人 口 点 [Stoll 1989, Spafford 1989] ， 攻 击 者 会 通过 这 些 人 口 点 进行 恶作剧 
或 者 网 络 犯罪 。 

起 初 设计 互联 网 和 与 其 相连 的 系统 时 ， 安 全 性 没有 被 充分 考虑 。 设 计 者 可 能 没有 想到 互联 网 会 发 
展 成 如 此 规模 ， 而 且 像 UNIX 之 类 的 系统 的 基本 设计 也 先 于 计算 机 网 络 出 现 。 我 们 可 以 看 到 ， 安 全 手 
段 需要 在 基本 设计 阶段 就 被 仔细 的 考虑 。 本 章 的 内 容 就 是 为 此 提供 一 些 基础 。 

我 们 已 经 注意 到 因为 暴露 通信 通道 和 接口 而 对 分 布 式 系统 产生 的 种 种 威胁 。 对 许多 系统 而 言 ， 只 
需要 考虑 这 些 威胁 (人 为 错误 引起 的 威胁 不 在 考虑 之 列 ， 因 为 安全 机 制 并 不 能 防止 用 户 使 用 非常 简单 
易 猜 的 口令 或 者 用 户 粗 心 泄漏 口令 而 造成 的 威胁 ) 。 对 于 包含 移动 程序 的 系统 和 其 安全 性 对 信息 泄漏 
特别 敏感 的 系统 ， 还 存在 其 他 威胁 。 

对 移动 代码 的 威胁 “最近 开发 的 一 些 程序 设计 语言 允许 程序 从 远程 服务 器 中 下 载 到 一 个 进程 中 ， 
并 在 本 地 执行 。 在 这 种 情况 下 ， 执 行进 程 中 的 内 部 接口 和 对 象 都 暴露 在 移动 代码 的 攻击 范围 内 了 。 

Java 是 这 种 类 型 的 语言 中 使 用 最 广泛 的 。 为 了 限制 这 种 暴露 ， 设 计 者 也 仔细 考虑 过 语言 的 设计 和 
i, URGES RO (YR (sandbox) 模型 就 是 用 于 对 付 移 动 代码 的 ) 。 

Java EMAL (JVM) 在 设计 的 时 候 就 考虑 到 了 移动 代码 。 它 给 每 个 应 用 分 配 各 自 独立 的 运行 的 环 
境 。 每 个 环境 都 有 一 个 安全 管理 器 ， 用 于 决定 哪些 资源 对 于 该 应 用 来 说 是 可 用 的 。 例 如 ， 安 全 管理 器 
会 终止 应 用 的 读 写 文件 操作 或 限制 程序 对 网 络 的 访问 。 一 旦 设置 了 网 络 管理 器 ， 它 就 不 能 被 替换 。 当 
用 户 运行 一 个 程序 〈( 如 浏览 器 下 载 移动 代码 用 于 本 地 运行 ) 时 ， 确 实 不 能 保证 这 些 移动 代码 会 可 靠 地 
执行 。 实 际 上 ， 会 存在 下 载 并 运行 恶意 代码 的 风险 ， 这 些 恶意 代码 会 删除 文件 或 访问 私人 信息 。 为 了 
保护 用 户 免 受 这 些 不 可 信和 代码 的 攻击 ， 大 部 分 浏览 器 都 限定 applets 不 能 访问 本 地 文件 、 打 印 机 和 网 络 
套 接 字 。 一 些 使 用 移动 代码 的 应 用 能 在 下 载 的 代码 中 设置 多 种 信任 级 别 。 这 样 ， 安 全 管理 器 就 允许 移 
动 代码 访问 更 多 的 本 地 资源 。 

为 保护 本 地 环境 ，JVM 提供 了 下 面 两 个 手段 : 

1) 下 载 的 类 和 本 地 的 类 分 开 保 存 ， 防 止 用 假冒 的 版 本 来 替换 本 地 的 类 。 

2) 检验 字 节 码 以 验证 其 有 效 性 。 有 效 的 Java 字 节 码 由 一 组 来 自 指定 集合 的 Java 虚拟 机 指令 组 成 。 
这 些 指令 也 会 被 检验 ， 以 保证 程序 执行 的 时 候 不 会 发 生 某 些 错误 ， 如 访问 非法 的 内 存 地 址 。 

当 人 们 逐渐 意识 到 最 初 采 用 的 安全 机 制 不 能 避免 漏洞 的 时 候 | McGraw and Felden 1999], Java 的 














存储 截获 的 信息 ， 并 稍 后 发 送 它们 。 这 种 攻击 甚至 对 已 认证 的 消息 和 加 密 消 
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安全 性 就 成 为 许多 后 续 研 究 的 主题 。 这 使 得 被 发 现 的 漏洞 得 到 修补 ，Java 保护 系统 也 进行 了 修正 ， 允 
许 移 动 代 码 在 获得 授权 时 访问 本 地 资源 [java. sun. com V], 

尽管 包括 了 类 型 检查 和 代码 验证 机 制 ， 整 合 到 移动 代码 系统 中 的 安全 机 制 仍然 达 不 到 用 于 保护 通 
信 通 道 和 接口 的 安全 机 制 所 能 达到 的 安全 级 别 。 这 时 因为 执行 程序 的 环境 为 错误 的 发 生 提供 了 很 多 机 
会 ,而且 也 不 能 肯定 所 有 的 错误 都 能 被 避免 。Volpano 和 Smith[ 1999] 已 经 指出 一 个 相对 较 好 的 解决 办 
法 ， 该 方法 基于 移动 代码 的 行为 是 完备 的 证 明 。 

信息 泄露 ”如 果 可 以 观测 到 两 个 进程 间 的 消息 传递 ， 那 么 就 可 以 收集 到 一 些 信 息 ， 例如， 如 果 某 
支 股票 有 大 量 交易 消息 表明 这 支 股 票 有 较 高 的 交易 率 。 还 有 许多 微妙 的 信息 泄露 形式 ， 有 些 是 恶意 的 
而 有 些 则 源 于 朴 忽 。 一 旦 观测 到 计算 结果 ， 则 潜在 的 泄露 危险 就 会 增加 。 在 20 世纪 70 年代， 人 们 就 
开始 了 防止 这 类 安全 威胁 的 工作 [Denning and Denning 1977] 。 所 采取 的 方法 是 为 信息 和 通道 赋予 安全 
等 级 ， 并 分 析 进 入 通道 中 的 信息 流 ， 以 保证 高 层 信息 不 会 流入 低层 通道 。Bell 和 LaPadula[ 1975] 率先 
描述 了 信息 流 的 安全 控制 方法 。 最 近 一 些 研 究 主题 是 用 组 件 之 间 的 互 不 信任 关系 将 这 种 方法 扩展 到 分 
布 式 系统 [Myers and Liskor 1997] 。 


11. 1.2 保护 电子 事务 


互联 网 在 工业 、 商 业 和 其 他 领域 的 许多 应 用 中 都 包括 一 些 对 安全 性 要 求 较 高 的 事务 。 例 如 : 

电子 邮件 (E-mail) : 虽然 电子 邮件 系统 原本 不 包括 安全 性 ,但 许多 用 户 的 信件 内 容 都 必须 保密 
(例如 ， 当 发 送 一 个 信用 卡号 的 时 候 ) 或 者 内 容 和 消息 的 发 出 者 必须 经 过 认证 (如 用 电子 邮件 提交 一 
个 拍卖 的 竞价 ) 。 本 章 所 述 的 密码 安全 技术 现在 已 经 应 用 到 许多 邮件 客户 中 了 。 

购物 和 服务 (purchase of goods and services): 这 样 的 事务 现在 已 经 非常 常见 了 。 购 买 者 在 Web 上 
选 定 商品 并 付 账 ， 所 购 的 商品 会 通过 相应 的 配送 机 制 送 到 购买 者 的 手中 。 软 件 或 者 其 他 的 数字 产品 
《如 唱片 和 录像 ) 可 以 通过 从 互联 网 上 下 载 来 交付 给 购买 者 。 其 他 有 形 的 商品 ， 如 图 书 、CD 和 其 他 各 
种 商品 也 可 以 从 互联 网 供应 商 处 购买 ， 商 品 通过 配送 服务 交付 到 购买 者 手中 。 

银行 事务 (banking transaction): 电子 银行 为 用 户 提供 了 常规 银行 所 能 提供 的 所 有 的 服务 。 用 户 可 
以 检查 余额 状态 、 转 账 金额 、 定 期 缴纳 各 种 款项 等 。 

微 事务 (micro-transaction); 互联 网 参与 向 大 量 用 户 提供 少量 的 信息 和 其 他 服务 。 例 如 ， 大 部 分 的 
Web 页 面 还 没有 收费 ,但 作为 一 个 高 质量 的 发 布 媒 介 的 网 页 的 发 展 取决 于 信息 提供 者 从 信息 的 消费 者 
处 获得 的 费用 。 例 如 ， 互 联网 上 音频 和 视频 会 议 的 使 用 (目前 还 是 免费 的 )， 当 接 入 电话 网 络 时 ， 就 
是 一 种 有 偿 服 务 。 这 些 服 务 的 价格 或 许 不 到 一 分 钱 ， 支 付 开销 必须 相应 较 低 。 通 常 来 说 ， 让 每 一 个 事 
务 包括 一 个 银行 或 信用 卡 服务 器 的 方案 ， 不 能 满足 降低 开销 的 要 求 。 

要 想 安全 地 执行 这 样 的 事务 ， 必 须 有 相应 的 安全 政策 和 安全 机 制 。 要 避免 在 消息 传输 过 程 中 泄露 
购物 者 的 信用 卡号 码 (卡号 )， 以 及 防止 那些 无 诚信 的 供 货 商 在 收 到 付款 后 却 不 发 货 。 供 货 商 必须 在 
发 货 前 收 到 付款 ， 对 于 下 载 的 产品 ， 他 们 还 必须 确保 只 有 顾客 得 到 了 可 用 的 数据 。 保 护 所 需 的 开销 与 
事务 的 价值 相 比 ， 必 须 是 合理 的 。 

为 互联 网 供 货 商 和 购买 者 制定 敏感 的 安全 政策 ， 会 产生 下 列 Web 交易 的 安全 需求 ， 

1) 为 购买 者 认证 供 货 商 ， 这 样 购买 者 就 可 以 确信 他 们 是 在 和 自己 准备 交易 的 供 货 商 的 服务 器 
联系 。 

2) 不 能 让 购买 者 的 信用 卡号 和 其 他 支付 信息 落 人 第 三 方 手中 ， 保 证 这 些 资料 不 加 改变 地 在 购买 者 
和 供 货 商 之 间 传 输 。 

3) 如 果 商 品 是 可 以 下 载 的， 那么 要 保证 它们 的 内 容 不 加 改变 地 传递 给 了 购买 者 ， 而 且 不 会 泄漏 给 
第 三 方 。 

通常 供 货 商 并 不 需要 对 购买 者 的 身份 进行 认证 (除非 是 传递 不 可 下 载 的 商品 )。 供 货 商 会 希望 能 
检测 购买 者 的 付款 能 力 ， 但 这 通常 是 在 发 送 商 品 前 ， 向 购买 者 的 银行 要 求 支付 款项 的 时 候 完成 的 。 

把 购买 者 比 作 银行 账户 持 有 者 ， 供 货 商 比 作 银行 ， 那 么 使 用 开放 网 络 的 银行 事务 的 安全 需要 与 购 
买 事务 类 似 , 但 显然 还 有 第 四 个 要 求 : 
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4) 在 给 予 银行 账户 的 持 有 者 访问 账户 的 权限 之 前 ， 要 对 其 身份 加 以 认证 。 
注意 ， 在 这 种 情况 下 ， 银 行 必须 保证 参与 了 事务 的 账户 持 有 者 不 能 抵赖 ， 这 一 点 非常 重要 。 这 种 
安全 需求 称 为 不 可 抵赖 〈non-repudiation ) 。 
除了 上 述 由 安全 政策 规定 的 需求 外 ， 还 有 一 些 系 统 需 求 。 这 些 需 求 源 于 互联 网 巨大 的 规模 过 于 庞 
大 ， 所 以 购买 者 和 供 货 商 难于 达成 某 种 特定 的 关系 〈 通 过 注册 密 铀 ， 以 供 以 后 使 用 ) 。 购 买 者 应 该 可 
以 在 以 前 从 未 与 供 货 商 联系 过 或 没有 第 三 方 的 情况 下 ， 完 成 一 个 安全 的 事务 。 一 些 技术 ， 例 如 使 用 
cookies 《用 于 记录 以 前 的 交易 ， 并 存储 在 客户 主机 上 ) 有 明显 的 安全 缺陷 ， 因 为 台式 和 移动 主机 都 经 
常 处 于 不 安全 的 物理 环境 中 。 

考虑 到 互联 网 商业 安全 的 重要 性 以 及 互联 网 商业 的 飞速 发 展 ， 我 们 将 讲述 一 些 密码 安全 性 技术 的 
使 用 ， 如 11.6 市 将 描述 在 大 部 分 电子 商务 中 使 用 的 实际 上 的 标准 安全 协议 一 传输 层 安 全 (TLS), 我 
们 还 会 描述 一 个 专门 为 微 事务 设计 的 协议 Millicent， 参 见 www. cdk5. net/security, 

互联 网 商业 是 安全 技术 的 一 个 很 重要 的 应 用 ,但 它 不 是 唯一 的 应 用 。 任 何 个 人 或 是 组 织 在 存储 和 
交互 重要 信息 的 地 方 都 会 用 到 它 。 在 个 人 通信 间 使 用 加 密 的 电子 邮件 已 经 成 为 大 家 关心 的 主题 。 我 们 
将 在 11. 5. 2 节 中 提 到 这 场 辩 论 。 


11. 1.3 设计 安全 系统 


近年 来 ， 密 码 技术 及 其 应 用 都 得 到 了 巨大 发 展 ,但 安全 系统 的 设计 依然 是 一 个 十 分 困难 的 任务 。 
出 现 这 种 局 面 的 原因 是 ， 设 计 者 们 总 是 想 尽 可 能 地 应 付 所 有 可 能 的 攻击 和 漏洞 。 这 就 像 是 让 程序 员 消 
除 程序 中 所 有 的 错误 。 在 这 两 种 情况 下 ， 都 没有 具体 的 方法 能 保证 实现 目标 。 按 已 知 的 最 好 的 标准 去 
设计 ， 并 进行 非 形式 化 的 分 析 和 检测 。 一 旦 设计 完成 ， 可 以 选择 是 否 进行 形式 化 的 验证 。 对 安全 协议 
进行 形式 化 验证 的 工作 已 产生 了 许多 重要 的 结果 [Lampson et al. 1992, Schneider 1996, Abadi and Gor- 
don 1999], 。 可 以 在 www. cdk5. net/security 找到 介绍 在 这 个 方向 迈 出 的 第 一 步 一 BAN 认证 逻辑 [Burrows 
et al. 1990] 及 其 应 用 的 介绍 。 

安全 就 是 要 加 免 大 灾难 和 最 小 化 一 般 的 灾难 。 进 行 安全 设计 的 时 候 ， 必 须 假设 处 于 最 坏 的 情况 下 。 
下 面 方 框 中 的 内 容 给 出 了 一 些 有 用 的 假设 和 设计 指南 。 这 些 假 设 是 本 章 讨论 的 技术 思想 的 基础 。 


最 坏 情 况 的 假设 和 设计 指导 

暴露 的 接口 : 分 布 式 系统 由 提供 服务 或 共享 信息 的 进程 组 成 。 进 程 之 间 的 通信 接口 必须 是 开放 
的 (为 了 让 新 的 客户 访问 它们 ) 攻击 者 可 以 给 任 一 接口 发 送 消 息 。 

不 安全 的 网 络 : 例如 ， 消 息 源 可 以 是 伪造 的 一 一 有 些 消息 看 似 来 自 Alice， 而 其 实 是 来 自 Md- 
lory。 主 机 地 址 也 可 能 是 伪造 的 一 一 Mallory 用 与 Alice 相同 的 地 址 连接 到 网 络 ， 并 可 以 接收 发 送 给 
Alice 的 消息 的 副本 。 

限制 保密 的 时 间 和 范围 ， 当 密 钥 产生 时 ,我 们 相信 这 个 密 钥 是 安全 的 。 随 着 密 钥 的 使 用 时 间 越 
来 越 长 、 范 围 越 来 越 广 泛 ， 它 的 安全 风险 也 随 之 增加 。 一 些 保密 措施 (如 密码 和 共享 密 钥 ) 的 使 
用 时 间 应 当 是 有 限 的， 而 且 共 享 范围 应 该 被 严格 控制 。 

攻击 者 能 够 获得 算法 和 程序 代码 : 一 个 秘密 分 布 的 范围 越 广泛 ， 它 被 泄漏 的 风险 也 就 越 大 。 在 
当今 如 此 大 规模 的 网 络 环境 中 ， 现 有 的 密 钥 加 密 算 法 是 不 够 的 。 最 好 的 保密 方法 是 公布 用 来 加 密 和 
认证 的 算法 ， 而 仅仅 依靠 加 密 密 铀 的 秘密 性 。 这 样 可 以 通过 第 三 方 的 检验 ， 增 强 对 算法 可 靠 性 的 
信心 。 

攻击 者 可 能 访问 大 量 资源 : 计算 开销 在 迅速 地 下 降 。 我 们 应 该 假设 攻击 者 能 访问 一 个 系统 生命 
期 中 计算 能 力 最 强 的 计算 机 ， 并 通过 执行 大 量 命令 产生 不 可 预计 的 结果 。 

使 可 信 库 最 小 化 : 系统 的 各 个 部 分 都 应 当 对 系统 的 安全 负责 ， 而 且 系统 的 所 有 软 、 硬 件 组 件 
都 应 该 是 可 信 的 一 一 这 也 常 被 称 为 可 信 的 计算 库 。 这 个 可 信 库 中 的 任何 缺陷 或 程序 错误 都 可 能 产 
生 安全 漏洞 ， 所 以 我 们 应 该 使 可 信 库 的 规模 最 小 。 例 如 ， 不 能 信任 应 用 程序 来 保证 用 户 数据 的 
| 安全 。 
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为 了 说 明 一 个 系统 中 使 用 的 安全 机 制 的 有 效 性 ， 系 统 设计 者 必须 首先 列 出 所 有 可 能 的 威胁 ， 即 会 
破坏 安全 政策 的 方法 ， 并 给 出 解决 威胁 的 机 制 的 说 明 。 这 种 说 明 可 以 采取 非 正式 讨论 的 形式 , 或 采用 
逻辑 证 明 的 形式 〈 这 种 方式 更 好 ) 。 

在 这 张 威胁 列表 中 不 可 能 列 出 所 有 的 问题 ， 因 此 在 安全 敏感 的 程序 中 还 必须 使 用 审计 的 方法 。 如 果 
安全 敏感 系统 中 的 安全 日 志文 件 总 是 详细 记录 用 户 的 操作 和 他 们 的 授权 信息 ， 那 么 审计 是 很 容易 实现 的 。 

一 个 安全 日 志 会 对 用 户 的 操作 打上 时 间 惟 并 按 序 记 录 。 日 志 中 的 记录 至 少 要 包括 主体 的 身份 、 所 
完成 的 操作 〈 如 删除 文件 、 更 新 账户 记录 ) 、 被 操作 对 象 的 标识 和 一 个 时 间 戳 。 在 可 疑 的 地 方 ， 记 录 
中 还 会 包含 对 物理 资源 (网络 带 宽 和 外 围 设 备 ) 使 用 的 记录 或 是 在 日 志 中 记录 对 一 些 特殊 对 象 的 登录 
操作 。 后 续 的 分 析 可 以 是 基于 统计 的 或 基于 搜索 的 。 随 着 时 间 的 流逝 ， 即 使 没有 可 疑 之 处 ， 这 些 统计 
信息 也 有 助 于 发 现 异 常 的 趋势 或 事件 。 

安全 系统 的 设计 必须 在 试图 解决 各 种 威胁 的 机 制 和 这 种 机 人 制 带 来 的 开销 之 间 加 以 权衡 。 用 来 保护 
进程 和 进程 间 通 信和 的 技术 可 以 涉及 相当 广 的 范围 而 且 强 大 到 足以 对 付 几 乎 任何 攻击 ， 但 使 用 它们 的 也 
会 导致 一 些 开 销 和 不 便 ; 

。 在 使 用 安全 系统 时 ， 产 生 了 额外 的 开销 (在 计算 机 效率 和 网 络 的 使 用 上 ) 。 必 须 在 这 种 开销 和 

所 要 解决 的 威胁 间 加 以 权衡 。 

。 使 用 了 不 合适 安全 策略 ， 会 导致 合法 的 用 户 也 要 执行 不 必要 的 操作 。 

不 与 安全 相 折 中 ， 这 样 的 平衡 就 很 难 达成 ， 也 似乎 与 本 小 节 第 一 段 中 的 建议 相 冲 突 。 但 安全 技术 
的 强度 可 以 根据 估计 的 攻击 开销 来 量化 和 选择 。www. cdk5. net/security 中 描述 的 小 型 商业 事务 使 用 的 
Millicent 协议 就 采用 开销 相对 较 低 的 技术 。 

在 11.6.4 节 中 ， 我 们 将 回顾 在 IEEE 802. 11 WiFi 网 络 标准 的 安全 设计 中 遇 到 的 问题 ， 作 为 对 安全 
系统 的 设计 过 程 中 可 能 遇 到 的 困难 的 一 个 例子 。 


11.2 安全 技术 概述 


本 节 的 目的 是 向 读者 介绍 一 些 保护 分 布 式 系统 和 应 用 的 重要 技术 和 机 制 。 这 里 我 们 将 非 形式 化 地 
描述 它们 ， 更 为 严格 的 描述 将 在 11.3 节 和 11. 4 节 给 出 。 我 们 将 使 用 图 11-1 中 为 主体 所 起 的 名 字 ， 并 
将 为 加 密 和 签发 的 项 目 应 用 图 11-2 中 所 示 的 符号 。 


K, Alice) 45 

Ks Bob 的 密 钥 

Kup Alice 和 Bob 共 享 的 密 钥 

Km ”Alice 的 私 钥 ( 只 有 Alice 知 道 》 

Km ”Alice 的 公 和 角 (由 Alice 公 布 的 ， 所 有 人 都 可 以 获得 ) 
Mi ”用 和 密 钥 KK 加 密 的 消息 M4 

[Mjx ”用 密 钥 K 答 发 的 消息 M4 











图 11-2 密码 符号 





假设 最 坏 情形 和 设计 指南 

接口 是 外 圳 的; 分 布 式 系统 由 提供 服务 或 者 共享 信息 的 进程 构成 。 进 程 间 的 通信 接口 有 必要 公 
开 《 以 允许 新 客户 对 它们 进行 访问 ) ， 这 就 导致 攻击 者 可 以 给 任意 接口 发 送信 息 。 

网 络 是 不 安全 的 : 例如 ， 可 以 伪造 消息 来 源 ， 即 消息 可 以 伪造 成 看 起 来 源 自 Alice 而 实质 是 由 
Mallory 发 送 的 。 主 机 地 址 也 可 以 具有 “欺骗 性 ”， 即 Mallory 可 以 伪造 与 Alice 相同 的 地 址 连接 到 网 
%, 并且 接受 原本 要 发 送 给 Alice 的 消息 副本 。 

限制 秘密 信息 的 生存 周期 和 范围 : 我 们 可 能 很 自信 地 认为 密 钥 在 产生 之 初 是 没 被 修改 过 的 ， 但 
密 铀 使 用 得 越久 ， 就 越 广为人知 ， 风 险 性 就 越 大 。 应 该 为 诸如 口令 和 共享 的 密 铀 等 这 些 秘密 信息 设 








置 生存 时 间 限 制 和 共享 程度 限制 。 
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攻击 者 可 以 获得 算法 和 程序 代码 ; 秘密 信 被 分 配 得 越 大 、 越 广 ， 其 被 暴露 的 风险 性 越 大 。 在 如 
今 大 范围 网 络 的 环境 之 下 ， 秘 密 加 密 算法 是 完全 不 够 的 。 最 好 的 办 法 是 将 加 密 和 认证 的 算法 公开 ， 
安全 性 只 依赖 于 加 密 密 钥 的 私密 性 。 这 是 很 有 帮助 的 。 通 过 向 第 三 方 公开 并 审议 ,来 确保 算法 足够 
强大 。 

攻击 者 也 许 能 访问 到 大 量 的 资源 : 计算 能 力 的 成 本 快速 降低 。 我 们 应 该 假设 ; 攻击 者 可 以 访问 
到 系统 所 计划 的 生存 期 内 的 最 大 和 最 有 能 力 的 计算 机 资源 ， 并 且 加 入 少许 一 定 规模 的 序列 
(order) ， 从 而 导致 无 法 预期 的 后 果 。 

最 小 化 可 信 基 ， 系统 的 部 分 组 成 用 来 实现 它 的 安全 性 ， 它 们 所 依赖 的 所 有 坎 件 组 件 和 硬件 组 伯 
必须 是 可 信 的 ， 这 就 是 所 说 的 可 信 计 算 基 (trusted computing hase) 。 在 这 种 可 信 基 下 ， 任 何 缺 陷 或 
编程 错误 都 能 产生 安全 漏洞 ， 所 以 我 们 应 该 最 小 化 它 的 大 小 。 例 如 ， 为 了 保护 数据 而 将 其 和 使 用 者 
分 开 的 应 用 程序 是 不 可 信 的 。 | 











11.2.1 密码 学 


加 密 就 是 将 消息 编码 以 隐藏 原 有 内 容 的 过 程 。 现 代 密码 学 包括 多 种 加 密 和 解密 消息 的 安全 算法 ， 
它们 都 基于 密 钢 (keys) 的 使 用 。 密 钥 是 加 密 算法 中 的 一 个 参数 ， 也 就 是 说 ， 如 果 不 知道 密 钥 ， 就 不 
可 能 解密 。 

道 常 使 用 的 加 密 算法 有 两 类 。 第 一 类 使 用 的 是 共享 的 密 钥 (shared secret key) ， 即 发 送 者 和 接收 者 
必须 知道 这 个 密 钥 ， 但 不 能 让 其 他 人 知道 。 第 二 类 加 密 算 法 使 用 的 是 公 钥 / 私 铀 对 (public/private key 
pair) ， 即 消息 发 送 者 用 一 个 公 钥 (public key) (这 个 密 钥 已 经 被 接收 者 公布 了 ) 来 加 密 消 息 。 接 收 者 
用 一 个 相应 的 私 钢 (private key) 对 消息 解密 。 尽 管 许多 主体 都 会 检测 公 钥 ,但 只 有 接收 者 可 以 解密 消 
息 ， 因 为 他 有 私 铀 。 

这 两 类 加 密 算法 都 非常 有 用 ， 并 且 在 建立 安全 的 分 布 式 系统 中 得 到 了 广泛 的 使 用 。 公 钥 加 密 算 法 
的 处 理 能 力 一 般 是 密 钥 算法 的 100 到 1000 倍 ， 但 在 某 些 情况 下 ， 它 的 便利 性 大 大 弥补 了 这 一 缺陷 。 


11.2.2 密码 学 的 应 用 


密码 学 在 安全 系统 的 实现 中 扮演 了 三 种 角色 。 我 们 在 此 只 通过 一 些 简 单 的 场景 概要 地 介绍 一 下 。 
在 本 章 后 面 的 小 节 里 ， 我 们 会 详细 讨论 它们 以 及 其 他 一 些 协议 ， 并 着 重 解决 此 处 提 到 的 几 个 未 解决 的 
问题 。 

在 下 面 的 场景 中 ， 我 们 假设 Alice、Bob 和 其 他 参与 者 都 已 经 对 所 用 的 加 密 算 法 达成 了 一 致 ， 同 时 
也 实现 了 这 些 算法 。 我 们 还 假设 任何 密 钥 或 私 钥 都 会 得 到 妥善 保存 ， 不 会 被 攻击 者 获得 。 

秘密 性 和 完整 性 ”密码 学 用 于 维护 暴露 于 潜在 的 攻击 下 的 信息 的 秘密 性 和 完整 性 ， 例 如 在 通过 网 
络 传输 的 时 候 ， 信 息 很 容易 被 窃听 或 者 纂 改 ， 这 是 密码 学 在 军事 和 情报 活动 中 的 传统 作用 。 它 是 根据 
这 样 一 个 事实 ， 由 某 个 加 密 密 钥 加 密 的 消息 ， 只 能 由 知道 相应 解密 密 钥 的 接收 者 才能 解密 。 只 要 解密 
密 钥 被 妥善 保存 (未 泄漏 给 第 三 方 )， 就 能 保持 加 密 消息 的 秘密 性 。 当 然 ， 还 要 求 加 密 算法 足以 应 付 
任何 破解 它 的 尝试 。 如 果 在 加 密 过 程 中 包括 像 校 验 和 这 样 的 元 余 信 息 并 对 之 加 以 检查 ， 那 么 加 密 过 程 
也 可 以 维护 加 密 信 息 的 完整 性 。 

场景 1: 用 共享 的 密 铀 进行 秘密 通 信 一 一 Alice 想 要 秘密 地 给 Bob 发 送 一 些 信息 。Alice 和 Bob 共享 
WH Kp。 

1) Alice 使 用 Ks 和 两 人 达成 一 致 的 加 密 函 数 E( Ks M) 加 密 消息 ,并 将 任意 数量 的 消息 fa ju 
发 送 给 Bob, (RE Ks 是 安全 的 ，Alice 就 可 以 继续 使 用 Kao) 

2) Bob 利用 相应 的 解密 函数 DK M) 对 加 密 消息 解密 后 就 可 以 得 到 原来 的 消息 了 。 

Bob 现在 可 以 读 取 原 始 的 消息 M, WMR Bob 解密 的 消息 是 有 意义 的 ， 或 者 更 好 的 情况 是 ， 它 包括 
Alice 和 Bob 之 间 达 成 一 致 的 值 ， 例 如 消息 的 校 验 和 ， 那 么 Bob 就 可 以 知道 这 个 消息 确实 是 来 自 Alice, 
而 且 没 有 被 咎 改过 。 但 仍然 存在 一 些 问题 
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问题 1: Alice 怎样 将 共享 的 密 钥 Ks 安全 地 发 送 给 Bob? 

问题 2，Bob 怎样 知道 任何 {M,} 是 Alice 以 前 发 送 的 加 密 消息 ， 而 不 是 后 来 由 Malory 截获 并 重 发 
的 ?在 进行 这 样 的 攻击 时 ，Mallory 并 不 需要 有 密 钥 Ko。 一 一 他 只 需 找 贝 表示 消息 的 比特 流 ， 然 后 发 送 
给 Bob 即 可 。 例 如 ， 如 果 消 息 是 一 个 付 钱 给 某 人 的 请 求 ， 那 么 Mallory 就 会 让 Bob 多 付 一 次 钱 。 

我 们 将 在 本 章 后 面 给 出 这 些 问 题 的 解决 方案 。 

认证 “密码 学 可 以 用 来 实现 主体 间 通 信 的 认证 机 制 。 主 体 用 特定 的 密 钥 成 功 解密 消息 后 ， 如 果 它 
包括 正确 的 校 验 和 或 者 (使 用 了 加 密 的 块 链 接 模 式 ， 见 11.3 节 ) 其 他 期 望 出 现 的 值 ， 则 认为 消息 是 可 
信 的 。 如 果 这 个 密 钥 只 为 通信 双方 所 知 ， 就 可 以 推断 消息 的 发 送 者 具有 相应 加 密 密 钥 ， 也 就 可 以 推断 
出 发 送 者 的 身份 。 如 果 密 钥 是 私人 所 有 的 ， 则 成 功 地 解密 也 就 认证 了 已 解密 的 消息 是 来 自 特定 的 发 
送 方 。 

场景 2， 和 服务 器 闻 的 认证 通信 一 Alice 想 访问 Bob 拥有 的 文件 ， 也 就 是 她 的 工作 单位 的 本 地 网 
中 的 一 个 文件 服务 器 。Sara 是 一 个 被 安全 管理 着 的 认证 服务 器 。Sara 向 用 户 发 送 口令 ， 并 且 保 存 着 系 
统 中 所 有 主体 的 当前 密 钥 (通过 在 用 户口 令 上 进行 一 些 转换 而 得 到 ) 。 例 如 ， 它 知道 Alice 的 密 钥 K A 
Bob 的 密 钥 Ke 。 在 这 个 场景 中 ， 我 们 将 谈 到 妹 证 〈ticket) 。 票 证 是 由 认证 服务 器 发 出 的 一 个 加 密 项 ， 
包括 向 其 发 送 票 证 的 主体 的 身份 和 一 个 用 作 当 前 通信 会 话 的 共享 密 钥 。 

1) Alice 向 Sara 发 送 了 一 条 (未 加 密 的 ) 消息 ， 声 明了 她 的 身份 ， 并 向 Sara 请 求 一 张 访问 Bob 的 





票证 。 

2) Sara 用 K, 加 密 应 答 消息 ， 并 回 发 给 Alice， 应 答 消 息 包括 一 个 用 K 加 密 的 票证 〈 同 访问 文件 
的 请 求 一 起 发 送 给 Bob) 和 一 个 新 的 密 钥 Ks，K4s 用 于 和 Bob 通信 。 因 此 Alice 收 到 的 应 答 形式 为 : 
| | Ticket} Ka Kap } Ky © 

3) Alice 用 K 解密 应 答 (KK 是 根据 Alice 的 口令 用 同样 的 转换 过 程 生成 的 ， 该 口令 没有 在 网 络 上 
传输 。 一 旦 被 使 用 后 ， 就 从 本 地 存储 中 删除 它 ， 以 防 泄漏 ) 。 如 果 Alice 从 口令 中 生成 正确 的 K,, 那么 
她 就 可 以 得 到 一 个 访问 Bob 服务 的 有 效 票证 和 一 个 用 于 与 Bob 通信 的 新 的 加 密 密 钥 。Alice 不 能 解密 或 
算 改 票证 ， 因 为 它 是 用 Ks 加 密 的 。 如 果 接 收 者 不 是 Alice， 那 么 就 不 知道 Alice 的 口令 ， 也 就 无 法 解密 
消息 。 

4) Alice 将 票证 、 自 己 的 身份 和 一 个 访问 文件 的 请 求 只 一 起 发 给 Bob: {Ticket} x。，Ahlice，R。 

5) 最 初 由 Sara 产生 的 票证 实际 上 是 {K Alice} x, o Bob 用 自己 的 密 钥 K, 解密 票证 。Bob 便 可 以 
得 到 Alice 的 身份 认证 (基于 只 有 Alice 和 Sara 知道 Alice 的 口令 事实 ) 和 一 个 用 来 和 Alice 交互 的 新 的 
共享 密 钥 Kyo (这 也 被 称 为 会 话 密 负 (session key), AW Alice 和 Bob 可 以 安全 地 用 它 进行 一 系列 
交互 。) 

上 面 的 场景 是 最 初 由 Roger Needleham 和 Michael Schroeder[ 1978] 开发 的 认证 协议 的 一 个 简化 版 
本 ， 后 来 又 在 MIT[ Steiner et al. 1988] 开发 并 使 用 的 Kerberos 系统 上 得 到 了 使 用 ， 详 见 11.6.2 节 。 在 
上 上 面 的 简化 版 协议 中 ， 没 有 措施 防止 对 月 认证 信息 的 重 放 。 这 个 弱点 和 其 他 一 些 弱 点 将 在 完整 的 
Needleham- Schroeder 协议 〈 见 11.6.1 节 ) 的 描述 中 解决 。 

我 们 描述 的 认证 协议 取决 于 认证 服务 器 Sara 事先 知道 Alice 和 Bob 的 密 钥 K 入;。 这 在 一 个 单一 
的 组 织 中 是 可 行 的 。 这 时 ，Sara 运行 在 一 个 物理 安全 的 计算 机 上 ， 并 由 可 信和 的 主体 管理 它 ， 主 体 产生 
这 些 密 钥 的 初始 值 ， 并 用 单独 的 安全 通道 传输 给 相应 的 用 户 。 但 这 在 电子 商务 或 其 他 广 域 应 用 上 是 不 
适合 的 ， 此 时 使 用 单独 的 安全 通道 非常 不 方便 ， 并 日 要 求 一 个 可 信 的 第 三 方 是 不 切实 际 的 ， 而 公 锅 加 
密 的 出 现 让 我 们 摆脱 了 这 种 两 难 境 地 。 

质询 的 有 效 性 :Needham 和 Schroeder 在 1978 年 取得 了 一 个 重要 的 突破 ， 他 们 认识 到 用 户 的 口令 并 
不 需要 在 每 次 认证 时 都 发 送 给 一 个 认证 服务 (这样 会 暴露 在 网 络 中 ) 。 相 反 ， 他 们 引 和 人 了 加 密 质 询 
(cryptographic challenge) 的 概念 。 在 上 面 场景 的 第 2 步 中 ， 服 务 器 Sara 把 用 Alice 的 密 钥 K, 加 密 的 
票证 发 送 给 Alice。 这 里 包括 一 个 质询 ， 因 为 Alice 除非 能 解密 这 个 票证 ， 否 则 就 不 能 使 用 它 ， 而 且 
Alice 只 有 在 知道 K, 的 情况 下 才 可 以 解密 票证 ， 而 K 来 自 Alice HO, Bt Alice 的 人 不 可 能 通过 
这 一 步 。 
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WRI: 使 用 公 钢 的 认证 通信 一 假设 Bob 已 经 产生 了 一 个 公 钥 / 私 钥 对 ， 下 面 的 对 话 可 以 使 Bob 
和 Alice 建立 一 个 共享 的 密 铀 Kis。 

1) Alice 访问 一 个 密 钥 分 发 服务 得 到 公 钥 证 书 〈public- key certificate) ， 它 给 出 了 Bob MAG, EX 
所 以 称 为 证 书 ， 是 因为 它 是 由 一 个 可 信 的 权威 机 构 签发 的 个 广为人知 的 可 靠 的 人 或 组 织 。 在 检验 
过 签名 后 ，Alice 从 证 书 中 读 取 Bob 的 公 钥 Ka 。( 我 们 将 在 11. 2. 3 节 讨 论 公 钥 证 书 的 构造 和 使 用 。) 

2) Alice 创建 一 个 与 Bob 共享 的 新 密 钥 Ke ， 并 用 公 钥 算 法 和 Ks 对 新 密 钥 加 密 。 她 将 结果 和 一 个 
能 唯一 标识 公 钥 / 私 钥 对 的 名 字 发 给 Bob (因为 Bob 可 能 有 多 个 公 钥 / 私 铀 对 ) 。 于 是 Alice 发 送 给 Bob 
HE “PARSE, | Ka] rpa” o 

3) Bob 从 他 的 众多 私 钼 中 选 出 相应 的 私 钼 Ks。。， 并 用 它 解密 Kis。 注意 ，Alice 给 Bob 发 送 的 消息 
在 传输 过 程 中 可 能 会 被 破坏 和 算 改 。 结 果 是 Alice 和 Bob 不 能 共享 密 钥 Ke 。 如 果 存 在 这 个 问题 的 话 ， 
可 以 比较 巧妙 地 解决 : 在 消息 中 加 入 协商 好 的 值 或 字符 串 ， 例 如 Alice 和 Bob 的 名 字 或 电子 邮件 地 址 ， 
这 样 Bob 就 可 以 在 解密 的 时 候 检查 一 下 。 

上 面 的 场景 说 明了 使 用 公 钥 加 密 发 送 一 个 共享 的 密 钥 的 方法 。 这 项 技术 被 称 为 混合 密码 协议 
( hybrid cryptographic protocol) 并 被 广泛 使 用 ， 因 为 它 利用 了 公 钥 加 密 算法 和 密 钥 加 密 算法 两 者 的 特点 。 

问题 ,这 种 密 钥 交换 很 容易 受到 中 间 人 攻击 。Mallory 可 能 截获 Alice 最 初 向 密 钥 分 发 服务 索要 Bob 
公 钥 证 书 的 请 求 ， 并 回复 一 个 包括 自己 公 钥 的 消息 。 然 后 ， 他 就 可 以 截获 所 有 后 续 的 消息 。 前 面 介绍 
过 ,为 了 防止 这 种 攻击 ， 我 们 要 求 Bob 的 证 书 应 该 由 一 个 众所周知 的 权威 机 构 签发 。 同 时 ，Alice 必须 
确保 Bob 的 公 钥 证 书 是 由 一 个 她 在 完全 安全 方式 下 收 到 的 公 钢 (下面 将 会 讲 到 ) 签发 的 。 

数字 签名 ”我 们 将 使 用 密码 学 实现 一 种 称 为 数字 签名 (digital signature) 的 机 制 。 它 的 作用 和 通常 
意义 的 签名 相似 ， 用 于 向 第 三 方 核实 消息 或 文档 在 签名 人 完成 后 没有 被 改 变 过 。 

数字 签名 技术 是 基于 将 一 个 只 有 签名 人 才 知 道 的 秘密 不 可 逆 地 绑 定 在 消息 或 文档 上 实现 的 。 这 可 
以 通过 对 消息 加 密 来 实现 ， 或 更 好 的 方法 是 用 只 有 签名 人 才 知 道 的 密 钥 将 消息 压缩 成 摘要 。 摘 要 是 由 
一 个 安全 摘要 函数 计算 而 成 的 固定 长 度 的 值 。 安 全 摘要 函数 类 似 于 校 验 和 函数 ， 但 它 不 会 为 两 个 不 同 
的 消息 产生 相似 的 摘要 值 。 加 密 的 摘要 附 在 消息 上 作为 签名 。 通 常 按 以 下 方式 使 用 公 钥 加 密 ， 首先 ， 
签名 人 用 他 们 的 私 钥 产 生 一 个 签名 ; 签名 可 以 由 任何 接收 者 用 相应 的 公 铀 解密 。 另 一 个 要 求 是 ， 验 证 
人 必须 能 确保 这 个 公 钥 就 是 签名 人 的 公 钥 ， 这 使 用 公 钥 证 书 来 解决 ， 见 11. 2. 3 节 的 描述 。 

场景 4: 使 用 安全 摘要 函数 的 数字 签名 Alice 要 对 一 个 文件 1 签名 ， 使 得 任何 接收 者 都 能 验证 
她 是 这 个 文件 的 签发 人 。 这 样 ， 当 Bob 通过 某 种 途径 或 资源 〈 例 如 来 自 消 息 或 者 一 个 数据 库 ) 接收 到 
文件 后 访问 这 个 签 了 名 的 文件 ， 他 就 可 以 验证 Alice 是 文件 的 签发 人 。 

1) Alice 为 文件 计算 出 一 个 固定 长 度 的 摘要 Digest(M) 。 

2) Alice 用 她 的 私 钥 为 这 个 摘要 加 密 ， 并 附 在 M 上 ， 再 将 “M，{ Digest(M) | 
用 户 。 

3) Bob 得 到 这 个 签 了 名 的 文件 ， 抽 取出 MEHA Digest(M) 。 

”4) Bob 用 Alice 的 公 铀 Kw 解密 {Digest(M) jx 。， 将 结果 和 自己 计算 的 Digest(M) 做 比较 ， 如 果 
” 相 匹 配 ， 那 么 签名 就 是 有 效 的 。 


11.2.3 证 书 
数字 证 书 是 由 一 个 主体 签发 的 包含 一 个 声明 GEER) 的 文档 。 我 们 用 一 个 场景 来 说 明 这 个 


场景 5: 使 用 证 书 一 一 Bob 是 一 家 银行 。 每 当 他 的 顾客 和 他 建立 联系 时 ， 他 们 需要 确认 他 们 是 在 和 
银行 Bob 交互 ， 即 使 他 们 以 前 从 来 没有 和 Bob 接触 过 。Bob 则 在 授予 用 户 访问 他 们 的 账号 的 权限 前 ， 
对 其 身份 加 以 验证 。 

例如 ，Alice 觉得 从 她 的 银行 获得 一 张 证 明 她 的 银行 账号 的 证 书 ( 见 图 11-3) 很 有 用 。Alice 可 以 
在 购物 时 用 到 这 个 证 书 ， 以 证 明 自 己 在 Bob 银行 开 了 户 。 证 书 用 Bob 银行 的 私 钥 Ka 签发。 供 货 商 
Carol 如 果 能 验证 第 5 个 域 中 的 签名 ， 她 就 可 以 接受 用 这 个 证 书 为 Alice 付 账 。 为 此 ，Carol 需要 有 Bob 





”公布 给 需要 的 


Kapriv 
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的 公 钥 ， 而 且 还 要 进行 验证 ， 防 止 Alice 签发 了 一 个 将 自己 名 字 关联 到 别人 账号 的 假 的 证 书 。 要 进行 这 
样 的 攻击 ，Alice 只 要 产生 一 个 新 的 “Kgs ，Ksmm” 密 铀 对 ， 并 用 它们 产生 一 个 假 的 证 书 ， 且 声称 它 来 
自 Bob 银行 。 

Carol 现在 需要 的 是 由 可 信 权 威 机 构 签发 的 含有 声明 了 Bob 公 钼 的 证 书 。 我 们 假设 Fred 代表 银行 家 
联盟 ， 他 是 能 证 明 银 行 公 钥 的 人 之 一 。Fred 为 Bob 发 行 了 一 个 公 侗 证书 (public key) (参见 图 11-4) 。 














1. 证 书 种 类 ， 账户 号 码 1. 证 书 种 类 : AH 

2. 姓 名 : Alice 2. 姓 名 : Bob 的 银行 

3 账号 6262626 3. 公 铀 : Kaps 

4. 证 明 方 ， Bob 的 银行 4. 证 明 方 : Fred 一 银行 家 联盟 

5. 签 名 : {Digest (field2 + field3) } Ks, 5.24: {Digest (field2+-field3) } Krpriv 
A 11-3 Alice 的 银行 账号 证 书 图 11-4 Bob 银行 公 钥 的 证 书 


当然 ， 这 个 证 书 取决 于 Fred 公 钥 Eu 的 真实 性 ， 这 样 我 们 就 面临 一 个 真实 性 的 递归 问题 一 一 如 果 
Carol 能 确信 她 知道 Fred 真实 的 公 钥 K;,,s ， 她 才能 信任 这 个 证 书 。 我 们 可 以 让 Carol 用 某 种 可 信和 的 方式 
得 到 Ks,s， 从 而 打破 这 一 递归 一 一 证 书 可 能 是 由 Fred 的 一 个 代表 亲手 交 给 她 或 者 她 从 自己 信任 的 人 那 
里 收 到 一 个 签名 的 证 书 ， 而 这 个 证 书 直 接 来 自 Fred。 我 们 的 例子 说 明了 一 个 证 书 链 ， 当 前 情况 下 就 是 
一 个 有 两 个 环节 的 链 。 

我 们 已 经 间接 提 到 证 书 引发 的 一 个 问题 一 一 如 何 选择 一 个 可 信 的 权威 机 构 ， 使 得 认证 链 得 以 开始 。 
信任 通常 不 是 绝对 的 ， 因 此 对 权威 机 构 的 选择 就 必须 取决 于 证 书 是 打算 给 谁 的 。 由 于 私 铀 有 被 泄漏 的 
危险 以 及 证 书 链 可 容许 的 长 度 会 引发 其 他 问题 ,证书 链 越 长 ， 冒 的 风险 就 越 大 。 

如 果 小 心 解决 了 这 些 问题 ， 证 书 链 就 成 为 电子 商务 和 真实 世界 其 他 事务 的 重要 基础 。 它 们 有 助 于 
解决 大 规模 认证 的 问题 : 世界 上 有 60 亿 人 口 ， 我 们 怎样 才能 在 任意 人 之 间 建 立 起 信任 关系 ? 

证 书 可 用 于 验证 多 种 声明 的 真实 性 。 例 如 ， 一 个 组 织 或 协会 的 成 员 可 能 要 维护 一 份 电子 邮件 列表 ， 
并 只 对 组 织 内 成 员 公 开 。 解 决 这 一 问题 的 办 法 是 让 具有 管理 成 员 资格 的 经 理 (Bob) 给 每 个 成 员 发 送 
一 个 成 员 资格 证 书 (5,Bob, | Digest(S) | Ks ) ， 这 里 5 是 形 如 “Alice 是 友好 社 的 一 个 成 员 ” 的 语句 ， 
K 是 Bob 的 私 铀 。 想 要 加 入 友好 社 电子 邮件 列表 的 成 员 必须 向 列表 管理 系统 提供 这 个 证 书 的 一 个 拷 
贝 ， 而 管理 系统 会 在 检查 证 书后 允许 Alice 加 入 这 个 列表 。 

为 了 使 用 证 书 ， 需 要 做 两 件 事情 ， 

。 证 书 要 有 标准 的 格式 和 表现 形式 ， 这 样 证 书签 发 者 和 证 书 用 户 就 可 以 成 功 地 构造 并 解释 证 书 。 

。 证 书 链 的 构造 方式 必须 达成 一 致 ， 特 别 是 对 权威 机 构 。 

我 们 将 会 在 11. 4. 4 节 讨 论 这 些 需 求 。 

有 时 需要 收回 一 个 证 书 。 例 如，Alice 不 想 继续 成 为 友好 社 的 成 员 ， 但 她 或 其 他 人 还 可 能 保留 她 的 
成 员 证 书 的 拷贝 。 跟 踪 并 删除 所 有 这 类 证 书 的 开销 巨大 甚至 根本 就 不 可 能 实现 ， 而 且 取 消 证 书 的 有 效 
性 也 是 不 容易 的 ， 因 为 要 通知 所 有 可 能 接收 这 个 被 撤销 的 证 书 的 接收 者 。 通 常 ， 解 决 这 种 问题 的 办 法 
是 在 证 书 中 包含 一 个 过 期 日 期 ， 收 到 过 期 证 书 的 人 应 该 将 证 书 抛弃 。 证 书 的 主体 也 必须 请 求 更 新 自己 。 
如 果 需 要 更 加 迅速 地 撤销 ， 就 要 借助 于 以 上 提 到 的 这 些 麻烦 的 机 制 了 。 


41.2.4 访问 控制 


本 节 我 们 将 概述 分 布 式 系 统 中 对 资源 访问 控制 的 概念 以 及 实现 技术 ， 在 Lampson[1971] 的 一 篇 经 
典 论文 中 非常 清晰 地 介绍 了 保护 和 访问 控制 的 概念 ， 而 非 分 布 式 的 实现 细节 可 以 在 许多 操作 系统 的 书 
中 看 到 [stallings 1998b] 。 

从 历史 上 看 ， 分 布 式 系统 中 的 资源 保护 大 部 分 是 面向 特定 服务 的 。 服务 器 收 到 下 列 格式 的 请 求 消 
B: <op, principal, resource > ， 其 中 op 是 所 请 求 操作 的 名 称 ，principal 是 发 送 请 求 的 主体 的 一 个 标识 
或 者 一 组 证 书 ，resource 是 操作 所 应 用 的 资源 。 服 务 器 必须 先 认证 请 求 消息 和 主体 的 证 书 ， 然后 进行 访 
问 控制 ， 拒 绝 没有 访问 权限 的 主体 的 在 特定 的 资源 上 完成 某 类 操作 的 请 求 。 
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在 面向 对 象 的 分 布 式 系统 中 ， 可 能 会 有 很 多 种 对 象 必须 应 用 访问 控制 ， 而 具体 的 决定 又 经 常 是 面 
向 特定 应 用 的 。 例 如 ， 每 天 只 允许 Alice 从 银行 取 一 次 现金 ， 而 允许 Bob 取 三 次 现金 。 访 问 控制 的 决定 
通常 留 给 应 用 层 的 代码 来 处 理 ， 但 同时 也 为 支持 访问 控制 决定 的 大 部 分 机 器 提供 一 些 通用 的 支持 。 这 
包括 主体 认证 、 请 求 的 签名 和 认证 、 管 理 证 书 和 访问 权限 数据 。 

保护 域 ”保护 域 是 一 组 进程 共享 的 一 个 执行 环境 ， 它 包括 一 组 < resource rights > 对 ， 列 出 了 在 域 
肉 执行 的 所 有 进程 允许 访问 的 资源 以 及 在 每 个 资源 上 所 能 进行 的 操作 。 保 护 域 通常 和 给 定 的 主体 相 
关 一 一 当 一 个 用 户 登 录 时 ， 认 证 她 的 身份 ， 并 为 她 要 运行 的 进程 建立 一 个 保护 域 。 从 概念 上 讲 ， 这 个 
域 包括 主体 具有 的 所 有 访问 权限 ， 包 括 她 以 多 个 小 组 成 员 身 份 得 到 的 权限 。 例 如 ,在 UNIX 中 ， 进 程 
的 保护 域 是 由 在 登录 时 附 在 该 进程 上 的 用 户 或 组 的 标识 符 决 定 的 。 权 限 是 按照 允许 的 操作 来 指定 。 倒 
如 ， 一 个 文件 对 这 个 进程 可 以 读 / 写 ， 而 对 另 一 个 只 可 读 。 

保护 域 只 是 一 个 抽象 。 在 分 布 式 系统 中 普遍 使 用 的 实现 方式 有 两 种 ， 即 权能 (capabilities) 和 访 
问 控制 列表 (access control lists) 。 

权能 ; 每 个 进程 根据 它 所 在 的 域 中 都 持 有 一 组 权能 。 权 能 是 一 个 二 进 制 值 ， 作 为 允许 所 有 者 对 特 
定 资源 进行 某 种 访问 和 操作 的 权限 。 在 分 布 式 系统 中 ， 权 能 必须 是 不 可 伪造 的 ， 形 式 如 下 : 


资源 标识 符 对 目标 资源 的 唯一 标识 
操作 允许 对 资源 进行 的 操作 列表 
认证 代码 使 权能 不 可 伪造 的 数字 签名 


当 服 务 认 证 了 客户 属于 它 所 声明 的 保护 域 时 ， 它 就 给 客户 提供 权能 。 权 能 中 的 操作 是 目标 资源 定 
义 的 操作 的 一 个 子 集 ， 通 常 被 编码 成 一 个 比特 标志 。 可 以 用 不 同 的 权能 表示 对 同一 资源 不 同 的 访问 
权限 。 
使 用 权能 时 ， 客 户 请 求 的 形式 是 <op, userid, capability > 。 请 求 包括 要 访问 的 资源 的 权能 ， 而 不 
是 一 个 简单 的 标识 符 ， 这 可 以 使 服务 器 立刻 就 能 知道 客户 有 权能 标识 的 访问 该 资源 的 权限 ， 能 够 进行 
权能 指定 的 操作 。 对 附 有 权能 的 请 求 的 访问 控制 检查 包括 检查 权能 的 有 效 性 ， 以 及 检查 请 求 的 操作 是 
否 在 权能 允许 的 集合 中 。 这 是 权能 机 制 的 主要 优点 ,它们 组 成 一 个 自 包 含 的 访问 钥匙 ， 就 像 物 理 门 锁 
的 钥匙 是 访问 门 锁 所 保护 的 大 楼 的 关键 。 
权能 保留 了 物理 锁 的 钥匙 的 两 个 缺点 : 
。 乌 是 被 盗 :任何 有 钥匙 的 人 都 可 以 用 它 进 和 大楼， 无 论 他 是 否 是 这 把 钥匙 的 合法 拥有 者 一 一 他 
们 可 以 用 偷盗 或 其 他 不 合法 的 手段 来 得 到 钥匙 。 
。 回收 问题 : 保管 钥匙 的 资格 会 随时 间 的 流逝 变更 。 例 如 ， 曾 经 的 钥匙 拥有 者 不 再 是 大 楼 主人 的 
雇员 ， 但 他 如 果 仍 然 保 管 或 者 复制 了 一 把 钥匙 ， 他 就 有 可 能 以 不 合法 的 方式 来 使 用 它 。 
针对 物理 钥匙 的 这 些 问题 ， 唯 一 可 行 的 解决 办 法 是 : 1) 将 违法 的 钥匙 拥有 者 送 进 监 狱 , 但 这 并 不 
能 永远 防止 那些 违法 事情 的 发 生 ; 2) 换 锁 并 把 新 钥匙 发 给 当前 所 有 合法 的 钥匙 保管 者 ， 这 是 一 种 代价 
高 昂 的 办 法 。 
对 于 权能 而 言 ， 类 似 的 问题 有 : 
s 由 于 不 小 心 或 者 受到 窃听 ， 权 能 可 能 会 落 人 非法 主体 手中 。 一 旦 这 样 ， 服 务 器 很 难 阻止 他 们 非 
法 使 用 权能 。 
。 取消 权能 是 很 困难 的 。 持 有 者 的 状态 可 能 会 改变 ， 因 此 其 访问 的 权利 也 应 相应 地 改变 ， 但 他 们 
依然 拥有 着 权能 。 
现在 ， 已 经 有 解决 这 两 个 问题 的 途径 : 一 是 包括 对 持 有 者 身份 验证 的 信息 ; 二 是 设置 超时 并 附带 
回收 权能 的 列表 [Gong 1989, Hayton et al. 1998] 。 尽 管 加 入 这 些 信息 使 得 原本 简单 的 概念 复杂 起 来 ， 
但 权能 依然 是 一 项 重要 的 技术 。 例 如 ， 它 们 可 以 和 访问 控制 列表 一 起 使 用 来 优化 对 同一 资源 的 重复 访 
间 ， 它 们 为 实现 委托 提供 了 最 简洁 的 实现 机 制 [ 见 11.2.5 节 ]。 
注意 ， 权 能 和 证 书 具 有 相似 性 。 回 想 一 下 11. 2. 3 节 介 绍 的 证 明 Alice 有 银行 账号 的 证 书 。 证 书 与 
权能 的 区 别 在 于 没有 人 允许 操作 的 列表 ， 也 不 对 发 出 权能 者 进行 认证 。 在 某 些 环境 下 ， 权 能 和 证 书 是 可 
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以 互 换 的 概念 。Alice 的 证 书 可 以 被 看 成 对 Alice 的 银行 账号 作 一 切 账 号 持 有 者 允许 的 操作 的 访问 钥匙 
凭证 ， 只 要 请 求 者 能 被 证 明 是 Alice 本 人 。 

访问 控制 列表 ， 每 个 资源 都 有 这 个 列表 ， 有 格式 为 < domain, operations > 的 项 ， 它 指出 了 对 该 资 
源 有 访问 权限 的 域 和 对 该 域 所 人 允许 的 操作 。 一 个 域 可 以 是 由 一 个 主体 的 标识 指定 ， 也 可 以 是 一 个 用 于 
决定 主体 在 域 中 资格 的 表达 式 。 例 如 ,， “文件 的 所 有 者 ”是 一 个 表达 式 ， 它 可 以 用 保存 在 文件 中 的 所 
有 者 的 标识 和 主体 的 标识 作 比较 而 求 得 该 表达 式 的 值 。 

这 是 大 多 数 文件 系统 采用 的 方案 (包括 UNIX 和 Windows NT) ， 每 个 文件 都 附 有 一 组 表示 访问 权限 
的 比特 值 ， 同 时 权限 被 授予 的 域 则 是 由 存在 于 每 个 文件 中 的 所 有 者 信息 定义 的 。 

发 到 服务 器 的 请 求 具有 < op principal, resource > 的 形式 。 对 每 一 个 请 求 ， 服 务 器 会 认证 主体 ， 并 
检验 所 请 求 的 操作 是 否 包含 在 相关 资源 的 访问 控制 列表 的 主体 项 中 。 

实现 ”数字 签名 、 证 书 和 公 钥 证 书 提供 了 安全 访问 控制 的 密码 学 基础 。 安 全 通道 具有 性 能 优势 ， 
利用 它 可 以 在 处 理 多 条 请 求 时 不 需要 重复 地 检查 主体 和 证 书 [Wobber et al. 1994 ] 。 

CORBA 和 Java 都 提供 了 安全 性 的 API。 支 持 访问 控制 是 它们 的 一 个 主要 目的 。Java 为 分 布 式 对 象 
提供 了 支持 ， 包 括 用 Principal, Signer, ACL 类 和 默认 的 认证 方法 进行 访问 控制 ， 还 有 对 证 书 、 签 名 有 
效 性 及 访问 控制 检查 的 支持 。 同 时 支持 密 钥 和 公 钥 密码 学 。Farley[ 1998] 对 Java 的 这 些 特色 做 了 很 好 
的 介绍 。 对 于 Java 程序 (包括 移动 代码 ) 的 保护 则 基于 保护 域 的 概念 一 一 本 地 代码 和 下 载 的 代码 分 别 
在 不 同 的 保护 域内 执行 。 每 个 下 载 的 代码 都 可 以 有 一 个 保护 域 ， 对 不 同 的 本 地 资源 的 访问 权限 取决 于 
下 载 代码 中 设置 的 信任 级 别 。 

CORBA 提供 了 一 个 安全 服务 规约 [Blakley 1999, OMG 2002b] ， 并 给 出 了 一 个 ORB 模型 以 便 提供 
安全 通信 、 认 证 、 基 于 证 书 的 访问 控制 、ACL 和 审计 ， 这 将 在 8. 3 节 做 进一步 的 描述 。 
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凭证 是 主体 在 请 求 访问 某 个 资源 的 时 候 提供 的 一 组 证 据 。 最 简单 的 情况 下 ， 具 有 一 个 从 相关 权威 
机 构 发 出 的 用 于 证 明 主 体 身份 的 证 书 就 足够 了 ， 它 可 以 用 来 在 一 个 访问 控制 列表 中 检查 主体 所 允许 的 
操作 〈 见 11.2.4 节 )。 通 常 这 就 是 所 有 要 提供 的 ， 但 这 些 概念 还 可 以 再 推广 一 下 ， 以 处 理 更 加 细微 的 
需求 。 

对 于 用 户 来 说 下 面 的 操作 是 很 不 方便 的 ， 即 在 每 次 需要 访问 受 保护 的 资源 时 都 让 他 们 同系 统 交 互 
并 给 出 自己 的 身份 验证 ， 有 一 种 折 中 的 方法 是 引入 “凭证 证 明 (speaks for) 主体 ”的 概念 。 这 样 ， 用 
户 的 公 铀 证 书 可 以 证 明 用 户 一 一 任 一 进程 收 到 由 用 户 的 私 钥 认证 的 请 求 ， 就 可 以 认为 请 求 就 是 由 该 用 
户 所 发 出 的 。 . l 

证 明 (speaks for) 的 想法 还 可 以 进一步 延伸 。 例 如 ， 在 一 个 合作 任务 中 ， 可 能 要 求 一 些 敏 感 的 操 
作 只 能 由 团队 中 具有 权限 的 两 名 成 员 来 完成 。 在 这 种 情况 下 ， 请 求 这 个 操作 的 主体 就 会 提交 自己 的 赁 
证 和 该 组 另外 一 个 成 员 的 凭证 ， 并 要 表明 在 检查 凭证 时 它们 是 在 一 起 的 。 

类 似 地 ， 投 票选 举 时 每 张 选票 都 会 附 有 选举 人 的 证 书 和 一 张 身份 证 书 。 委 托 证 书 允 许 主体 可 以 代 
表 另 外 一 个 人 来 操作 等 。 通 常 ， 访 问 控制 检查 包括 对 一 个 结合 了 证 书 的 逻辑 公式 的 求 值 。Lampson 等 
人 [1992] 提出 了 一 个 认证 逻辑 ， 用 于 评估 由 一 组 凭证 形成 的 证 明 ; Wobber 等 人 [1994] 描述 了 一 个 
系统 ， 用 于 支持 这 种 非常 通用 的 检查 方法 ; 还 可 以 在 [Rowley 1998] 中 找到 真实 世界 的 合作 任务 中 使 
用 的 更 为 有 用 的 形式 。 

在 设计 实际 的 访问 控制 方案 时 ， 基 于 角色 的 凭证 显得 尤为 有 用 [Sandhu et al. 1996 ] 。 对 于 组 织 机 
构 或 合作 性 任务 ， 可 以 定义 成 组 的 基于 角色 的 凭证 ， 应 用 层 的 访问 权限 也 可 通过 这 些 凭 证 建立 起 来 。 
在 特定 的 任务 或 组 织 机 构 中 ， 角 色 可 以 用 产生 一 个 角色 证 书 ( 它 将 主体 与 一 个 命名 的 角色 相关 联 ) 的 
途径 ， 分 配给 特定 的 主体 [Coulouris et al. 1998 ] 。 

委托 ”凭证 的 一 个 特别 有 用 的 形式 是 让 某 个 主体 或 代理 某 个 主体 的 进程 ， 在 另 一 个 主体 的 授权 下 ， 
执行 某 个 操作 。 下 列 情况 需要 使 用 委托 : 服务 需要 访问 一 个 受 保护 的 资源 ， 以 代表 其 客户 完成 一 个 动 
作 。 考 虑 接收 打印 文件 的 请 求 的 打印 服务 器 。 找 贝 整 个 文件 将 是 对 资源 的 浪费 ， 所 以 用 户 只 需 将 文件 
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的 名 字 发 送 给 打印 服务 器 ， 而 由 打印 服务 器 代表 发 出 请 求 的 用 户 来 访问 这 个 文件 。 如 果 这 个 文件 是 读 [482] 
保护 的 ， 那么 只 有 打印 服务 器 得 到 临时 的 读 权限 ,才能 进一步 工作 。 委 托 就 是 为 了 解决 此 类 问题 而 设 
计 的 一 种 机 制 。 
委托 可 以 用 委托 证 书 或 者 委托 权能 来 实现 。 证 书 由 请 求 的 主体 签发 ， 它 授权 另外 一 个 主体 (在 我 
们 的 例子 中 指 打 印 服务 器 ) 访问 某 个 资源 (要 打印 的 文件 )。 在 支持 权能 的 系统 中 ,也 可 以 不 需要 标 
识 主体 便 达 到 同样 的 效果 一 一 访问 某 资源 的 权能 放 在 请 求 中 ， 一 起 发 送 到 服务 器 。 权 能 是 一 个 不 可 伪 
造 的 、 有 关 资 源 访问 权限 的 编码 集 。 
委托 权限 后 ， 一 般 会 将 受 委 托 方 使 用 的 权限 限制 在 委托 人 权限 的 子 集 内 。 这 样 受 委托 的 主体 就 不 
会 错 用 权限 。 在 我 们 的 例子 中 ， 证 书 应 该 是 有 时 间 限 制 的 ， 以 降低 打印 服务 器 的 代码 被 损害 ， 而 使 得 
文件 泄漏 给 第 三 方 的 风险 。CORBA 安全 服务 包括 一 个 基于 证 书 的 权限 委托 机 制 ， 支 持 对 权限 的 限制 。 


11.2.6 防火 墙 


3.4.8 节 已 对 防火 墙 进行 过 介绍 。 它 可 以 保护 内 部 网 ， 对 流 人 和 流出 网 络 的 信息 进行 过 滤 。 这 里 
我 们 将 讨论 它 作 为 安全 机 制 的 优点 和 缺点 。 . 

在 理想 的 世界 里 ， 通 信和 总 是 在 相互 信任 的 进程 中 进行 ， 也 总 是 使 用 安全 的 通道 。 但 实际 上 ， 有 许 
多 原因 造成 这 种 理想 的 情况 不 能 达到 ， 有 些 原因 源 于 分 布 式 系统 开放 性 本 质 中 所 固有 的 限制 ， 有 些 原 
因 则 源 于 大 多 数 软件 中 存在 的 错误 。 由 于 请 求 消息 可 以 被 轻松 地 发 送 到 任何 地 方 的 任何 服务 器 ， 而 且 
大 多 数 服务 器 在 设计 时 就 没有 考虑 到 防范 黑客 的 恶意 攻击 和 突 发 性 错误 ， 这 使 得 机 密 信息 会 很 容易 地 
从 组 织 的 服务 器 里 泄漏 出 去 。 一 些 意 想不到 的 东西 也 会 渗透 进 组 织 的 网 络 ， 例 如 蠕虫 程序 或 病毒 。 对 
防火 墙 的 进一步 讨论 参见 (Web. mit. edu 1N], 

防火 墙 创 造 了 一 个 本 地 通信 环境 ， 使 得 所 有 的 外 部 通信 都 被 截取 。 只 有 获得 授权 的 通信 消息 才 会 
发 往 本 地 的 接收 者 。 

访问 内 部 网 络 会 受到 防火 墙 的 控制 ,但 访问 互联 网 上 的 公共 服务 是 不 受 此 限制 的 ， 因 为 其 目的 是 
为 广大 用 户 提 供 服 务 。 使 用 防火 墙 并 不 能 保护 网 络 免 受 来 自 组 织 内 部 的 攻击 ， 而 它 对 外 来 访问 的 控制 
也 是 粗略 的 。 人 们 需要 细 粒 度 的 安全 机 制 ， 以 便 个 人 用 户 在 私密 性 和 完整 性 不 被 损害 的 前 提 下 能 够 和 
选 定 的 其 他 人 分 享 信息 。Abadi 等 人 [1998] 提供 了 一 个 供 外 部 用 户 访问 私人 Web 数据 的 方法 ， 它 基 
F Web 人 隧道 (Web tunnel) 机 制 ， 该 机 制 可 以 被 集成 到 防火 墙 中 。 该 机 制 提 供 了 一 个 基于 HTTPS 协议 
(TLS 上 的 HTTP) 的 安全 代理 ， 而 这 些 可 信和 认证 过 的 用 户 将 通过 这 个 代理 访问 内 部 的 Web 服务 器 。 

防火 墙 对 于 避免 拒绝 服务 攻击 (如 我 们 在 3.4.2 节 提 到 的 基于 P 伪 冒 的 那 种 攻击 ) 不 是 很 有 效 。 
问题 在 于 这 种 攻击 生成 的 消息 会 像 洪水 一 般 淹没 任何 一 个 像 防火 墙 之 类 的 防御 点 。 所 以 必须 在 目标 的 
上 游 对 进入 的 大 量 消息 加 以 处 理 。 使 用 服务 质量 机 制 限制 网 络 中 的 消息 流 ， 将 它 控制 在 目标 所 能 处 理 
的 水 平 上 ， 似 乎 还 有 可 能 缓解 这 种 攻击 。 483 


11.3 密码 算法 


发 送 方 按照 某 种 规则 将 明文 (plaintext) 消息 (正常 顺序 的 比特 流 ) RRE (ciphertext) W 
息 (改变 了 顺序 的 比特 流 ) ， 这 就 是 消息 加 密 的 过 程 。 接 收 方 必须 知道 这 一 转换 规则 ， 才 能 够 将 密 文 
正确 转换 为 原来 的 明文 。 其 他 主体 无 法 解密 该 密 文 ， 除 非 他 们 知道 转换 规则 。 加 密 的 转换 过 程 由 两 个 
部 分 定义 ,函数 正和 密 钥 天 ， 加 密 后 的 消息 写成 : {MM * ， 即 
E(K,M) = |M}« 
加 密 函 数 互 定义 了 一 个 算法 ， 用 于 将 明文 中 的 数据 项 ， 通 过 和 密 钥 结 合并 加 以 转换 ， 将 它们 转化 成 加 
密 的 数据 项 ， 对 于 明文 的 变换 很 大 程度 上 依赖 于 是 密 钥 的 值 。 我 们 可 以 将 一 个 加 密 算法 看 成 一 簇 函 数 
的 规约 ， 通 过 给 定 的 密 钥 可 以 从 中 选 出 一 个 函数 。 解 密 是 由 一 个 逆 函 数 D 来 执行 的 ， 它 也 以 一 个 密 铀 
作为 参数 。 对 密 钥 加 密 而 言 ， 解 密使 用 的 密 钥 和 加 密使 用 的 密 钥 是 相同 的 : 
D(K,E(K,M)) =M 
因为 需要 对 称 地 使 用 密 铜 ， 所 以 密 钥 密码 学 通常 被 称 为 对 称 密码 学 (symmetric cryptography), Mi 
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公 铀 密码 学 则 被 称 为 不 对 称 的 (asymmetric) ， 因 为 它 使 用 的 加 密 密 铀 和 解密 密 钥 是 不 一 样 的 。 下 一 节 
我 们 将 描述 这 两 种 密码 学 常用 的 一 些 加 密 算法 。 

对 称 算法 “如 果 不 考 虑 密 钥 参 数 ， 即 定义 Fe( [M]) = E(K,M) 那么 我 们 就 得 到 强加 密 函 数 的 一 
个 性 质 ， 即 严 ([M] ) 相对 容易 计算 ， 而 其 逆 (CM) 难于 计算 ， 这 样 的 函数 被 称 为 单 向 函数 。 加 密 
信息 所 使 用 方法 的 有 效 性 取决 于 具有 单 向 性 质 的 加 密 函 数 F 的 使 用 ， 也 就 是 说 ， 通 过 使 用 FP 可 以 抵 
御 下 面 的 攻击 ， 即 通过 破解 |Mj x 而 得 到 M, 

对 于 下 一 小 节 将 要 介绍 的 设计 巧妙 的 对 称 算法 而 言 ，K 的 大 小 决定 了 从 明文 M 及 加 密 后 的 [Mj} x 
求 出 天 的 运算 量 。 通 常 ， 最 有 效 的 也 是 最 抽 劣 的 攻击 是 一 种 被 称 为 强行 攻击 (brute-force attack) 的 攻 
击 形式 。 强 行 攻击 方法 的 原理 是 : 运行 所 有 可 能 的 天 值 ， 求 出 E(K,M) 和 已 知 的 (M), 比较 ， 直 到 匹 
配 为 止 。 如 果 玉 及 比特， 那么 强行 攻击 找到 天 平均 要 进行 28-: 次 迁 代 ， 最 多 要 进行 2 URL. Alt 
破解 的 时 间 是 的 比特 数 的 指数 级 时 间 。 

不 对 称 算法 “ 当 使 用 公 钥 / 私 钼 对 的 时 候 ， 单 向 函数 就 以 另外 一 种 形式 得 到 了 应 用 。 第 一 个 可 行 的 
公 铀 方案 是 由 Diffie 和 Hellman [1976] 年 提出 的 ， 它 作为 一 种 密码 学 方法 ， 消 除了 通信 双方 必须 要 互 
相信 任 的 前 提 。 所 有 公 铀 方案 的 基础 是 隐 门 函数 《trap-door function) 。 陷 门 函 数 是 一 个 有 秘密 出 口 的 
单 向 函数 一 它 在 一 个 方向 是 容易 计算 的 ， 而 在 不 知道 密 铀 的 情况 下 几乎 不 可 能 求 出 其 逆 。 似 乎 寻找 
这 样 的 函数 并 将 其 应 用 到 实际 的 密码 学 方案 中 是 Diffie 和 Hellman 第 一 次 提出 的 。 此 后 一 些 实际 的 公 钥 
方案 陆续 被 提出 并 不 断 发 展 ， 它 们 都 依靠 使 用 大 数 函 数 作为 陷 门 函 数 。 

不 对 称 算法 所 要 使 用 的 密 钥 对 是 从 一 个 公共 根 导出 的 。11. 3. 2 节 描述 的 RSA 算法 使 用 任意 选择 的 
非常 大 的 素数 对 作为 根 。 再 由 一 个 单 向 函数 从 根 导出 密 钥 对 。 在 RSA 算法 中 ， 需 要 将 两 个 大 素数 相 
Fe ”即使 使 用 非常 大 的 素数 ， 该 计算 也 只 需 几 秒 钟 就 可 完成 。 最 后 的 乘积 N 当然 比 被 乘 数 大 得 多 。 
在 某 种 意义 上 来 说 , 乘法 的 使 用 就 是 单 向 函数 ， 因 为 想 从 乘积 得 到 原来 的 被 乘 数 一 即 乘积 的 分 
解 一 “从 计算 上 看 是 不 可 行 的 。 

密 钥 对 中 的 一 个 被 用 来 加 审 。 在 RSA 中 ， 加 密 函数 隐藏 明文 的 方式 是 将 每 个 比特 块 作为 二 进 制 
数 ， 用 密 钥 为 指数 ， 对 其 作 求 宕 运算 ， 再 将 结果 对 N 取 模 。 结 果 值 是 相应 的 密 文 块 。 

N 的 大 小 和 至 少 一 个 密 钥 对 要 比 对 称 密 铀 所 需 的 安全 密 钥 尺寸 大 得 多 ， 以 保证 N 是 不 可 分 解 的 。 
因为 这 个 原因 强行 攻击 RSA 的 可 能 性 就 很 小 了 ; 它 对 攻击 的 抵抗 力主 要 依赖 于 分 解 N 的 不 可 行 性 。 
我 们 将 在 11. 3. 2 节 讨论 的 安全 大 小 。 

块 密码 ”大 多 数 加 密 算 法 是 在 固定 大 小 的 数据 块 上 操作 的 ; 通常， 块 的 大 小 为 64 比特 。 消 息 被 分 
市 成 多 个 块 ， 必 要 时 ， 如 果 最 后 一 块 达 不 到 ， 通 过 填充 达到 标准 长 度 。 每 个 块 被 独立 地 加 密 。 一 旦 第 
一 个 块 加 密 好 了 ， 就 可 以 用 于 传输 了 。 

对 于 简单 的 块 加 密 ， 每 个 密 文 块 的 值 都 与 前 面 的 块 无 关 。 这 样 存在 一 个 弱点 ， 攻 击 者 可 以 识别 重 
复 的 模式 并 推导 出 它们 和 明文 间 的 关系 。 而 且 ， 消 息 的 完整 性 也 得 不 到 保证 ， 除 非 使 用 校 验 和 或 安全 
摘要 机 制 。 大 多 数 块 加 密 算法 使 用 密码 块 链接 (CBC) 来 克服 这 些 弱 点 。 

密码 块 链接 ; 在 密码 块 链接 模式 中 ， 每 个 明文 块 在 加 密 前 先 和 前 面 的 密 文 块 进行 异 或 操作 
(XOR) (参见 图 11-5) 。 解 密 时 ， 块 先 被 解密 ， 再 和 aa 
前 面 的 密 文 块 〈 应 该 将 它 保 存 起 来 ) 作 XOR 操作 ， "A S o 
从 而 得 到 原先 的 明文 。 这 种 方法 能 成 功 是 因为 XOR gery 
操作 是 震 等 的 ， 即 两 次 应 用 它 会 产生 原来 的 值 。 

CBC 意图 防止 明文 中 的 相同 部 分 加 密 后 在 密 文 图 11-5 密码 块 链 
中 还 是 相同 的 。 但 在 每 个 块 序列 的 起 始 处 都 存在 着 一 个 弱点 一 一 如 果 我 们 要 与 两 个 目的 地 建立 加 密 的 
连接 ， 并 向 其 发 送 同样 的 消息 ， 那 么 加 密 的 块 序列 就 是 一 样 的 ， 这 样 窃听 者 就 可 以 从 中 得 到 有 用 的 信 
息 。 为 了 防止 这 样 的 漏洞 ， 我 们 需要 在 每 个 消息 的 前 面 加 一 段 不 同 的 明文 ， 这 样 的 明文 叫做 初始 化 向 
¥ (initialization vector) 。 时 间 截 是 一 个 很 好 的 初始 化 向 量 ， 它 强制 每 个 消息 都 以 不 同 的 明文 块 开头 。 
SRI CBC 操作 结合 在 一 起 ， 产 生 的 结果 就 是 :即使 用 相同 的 明文 ， 也 可 转化 成 不 同 的 密 文 。 

使 用 CBC 模式 必须 保证 加 密 数 据 在 可 靠 的 连接 上 传输 。 任 意 密 文 块 的 丢失 都 会 导致 解密 失败 ， 因 
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为 解密 过 程 不 能 解密 后 续 的 密 文 块 。 因 此 它 不 太 适 合 应 用 到 第 18 章 所 描述 的 程序 中 ， 该 程序 要 能 容忍 
一 些 数 据 的 丢失 。 为 此 ， 我 们 引入 流 密 码 的 概念 。 

流 密码 ”对 于 一 些 应 用 ， 例 如 对 电话 交谈 加 密 ， 块 加 密 的 方法 就 不 太 合 适 了 ， 因 为 数据 流 是 实时 
产生 的 多 个 小 块 。 数 据 采样 可 以 小 到 8 比特 ， 甚 至 1 比特 。 将 它们 补足 到 64 比特 再 加 密 并 传输 就 显得 
特别 浪费 。 流 密码 是 一 种 增 量 式 加 密 的 加 密 算 法 ， 它 每 次 将 明文 中 的 1 比特 加 密 为 密 文 。 

这 个 提议 听 起 来 很 难 实现 ， 但 实际 上 很 容易 就 可 以 将 一 个 块 密码 算法 转换 成 流 密码 算法 ， 其 技巧 
就 在 于 构造 一 个 密 钥 流产 生 器 (keystream generator) 。 密 钥 流 是 任意 长 度 的 比特 序列 ， 通 过 将 其 和 数据 
流 做 XOR 操作 ， 即 可 完成 加 密 的 过 程 (参见 图 11-6) 。 如 果 这 个 密 钥 流 是 安全 的 ,那么 得 到 的 加 密 数 
据 流 也 是 安全 的 。 


密 钥 序列 一 > 
oe n+3 n2 ml 


明文 流 





图 11-6 流 密码 


这 种 想法 和 在 智能 社区 避免 窃听 用 到 的 “ 白 噪 声 ” 的 方法 是 类 似 的 。 白 噪声 就 是 在 对 室内 的 交谈 
录音 时 ， 加 入 噪声 ， 以 掩盖 谈话 内 容 。 如 果 嘲 杂 的 房间 谈话 声 和 白 噪 声 是 单独 录制 的 话 ， 那 么 可 以 从 
嘲 杂 的 谈话 录音 中 去 掉 白 噪声 的 录音 ， 从 而 得 到 没有 噪声 的 谈话 内 容 。 

密 钥 流产 生 器 是 通过 对 某 个 范围 的 输入 值 重复 地 应 用 一 个 数学 函数 ， 得 到 一 个 连续 的 输出 值 流 而 
得 到 的 。 然 后 将 输出 值 连接 起 来 组 成 明文 块 ， 再 将 这 些 块 以 收发 双方 共享 的 密 钥 加 密 。 密 钥 流 还 可 以 
进一步 利用 CBC 来 伪装 ， 得 到 的 加 密 块 就 作为 密 钥 流 。 任 何 可 以 产生 一 组 不 相同 的 非 整 数值 的 函数 的 
迭代 都 可 以 作为 密 钥 流产 生 器 的 候选 函数 ， 但 通常 我 们 使 用 的 是 一 个 随机 数 发 生 嚣 ， 其 初始 值 是 由 收 
发 双方 协商 决定 的 。 为 了 保证 用 于 数据 流 的 服务 的 质量 ， 密 钥 流 块 应 该 在 用 到 它们 之 前 产生 ， 同 时 产 
生 它 们 的 进程 也 不 应 执行 太 多 的 操作 以 免 数 据 流 被 延迟 。 

因此 ， 从 原则 上 讲 ， 在 可 以 提供 充足 的 处 理 能 力 来 实时 加 密 密 钥 流 的 情况 下 ， 实 时 数据 的 加 密 可 
以 像 批 处 理 数据 一 样 安全 。 有 些 设备 ， 例 如 移动 电话 ， 可 以 从 实时 加 密 的 过 程 中 得 到 好 处 ， 但 它 没有 
功能 强大 的 处 理 器 ， 这 种 情况 下 有 必要 降低 它 的 密 钥 流 算法 的 安全 性 。 

密码 算法 的 设计 有 很 多 设计 得 很 好 的 密码 算法 ,例如 E(K,M) = {Mix 隐藏 了 的 值 ， 并 且 找 
到 的 值 的 速度 不 可 能 比 执行 强行 攻击 快 。 所 有 的 加 密 算法 都 是 基于 信息 论 [Shannon 1949] 的 原则 ， 
对 下 进 行 了 信息 保留 操作 。Schneier [1996] 将 Shannon 的 两 个 基本 原理 : 含混 和 扩散 (confusion and 
diffusion) 用 于 隐藏 密 文 块 MM 的 内 容 ， 通 过 将 内 容 和 一 个 足够 大 的 密 铀 K 相 组 合 ， 来 对 付 强行 攻击 。 

含混 ; 使 用 非 破坏 性 的 操作 (如 XOR) 和 循环 移 位 将 每 个 明文 块 和 密 钥 组 合 ， 产 生 一 种 新 的 位 模 
A, AMEMA {M 中 各 个 块 之 间 的 关系 。 如 果 一 个 块 有 多 个 特征 ， 那 么 这 种 方法 就 可 以 抵抗 基 
于 特征 频率 知识 的 分 析 。(WWII German Enigma 机 器 使 用 的 是 链 式 单字 母 块 ， 它 无 法 抵御 统计 分 析 。) 

TR: 在 明文 中 通常 会 有 重复 和 元 余 。 扩 散 是 通过 对 每 个 明文 块 调换 位 置 来 消除 规律 性 模式 。 如 
果 使 用 CBC， 稍 长 一 点 的 正文 依然 会 产生 元 余 。 流 密码 不 能 使 用 扩散 ， 因 为 不 存在 块 。 

在 下 面 两 小 节 中 ， 我们 将 讨论 几 个 重要 的 实用 算法 的 设计 。 这 些 算 法 都 是 基于 上 述 基 本 原理 而 设 
HH, 它们 也 经 过 了 严格 的 分 析 ， 可 以 抵挡 所 有 已 知 的 攻击 ， 并 有 相当 的 安全 性 。 除 了 TEA 算法 只 是 
用 于 说 明 外 ， 其 他 的 算法 都 广泛 应 用 在 一 些 需要 强大 安全 性 支持 的 程序 里 。 其 中 有 些 算 法 还 有 一 些小 
的 漏洞 或 需要 考虑 的 地 方 ， 由 于 篇 幅 所 限 ， 我 们 不 能 在 这 里 讨论 所 有 需要 考虑 的 问题 ， 读 者 可 以 自己 
参阅 Schneier[ 1996] 来 获取 更 多 的 信息 。 我 们 将 在 11. 5. 1 节 总 结 和 比较 这 些 算 法 的 安全 性 和 性 能 。 

不 需要 理解 密码 算法 的 读者 可 以 跳 过 11.3.1 节 和 11.3.2 节 。 


11.3.1 BSA (对称 ) 算法 
近年 来 开发 和 发 布 了 许多 密码 算法 。Schneier[ 1996] 中 描述 的 对 称 算 法 多 达 25 种 以 上 ， 其 中 很 多 
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算法 都 被 认为 对 于 已 知 的 攻击 是 安全 的 。 我 们 在 此 只 讨论 其 中 的 三 种 。 第 一 个 是 TEA， 因 为 其 在 设计 
和 实现 上 的 简单 性 ， 我 们 用 它 来 具体 说 明 这 一 类 算法 的 本 质 。 然 后 简单 讨论 DES 和 IDEA 算法 。 多 年 
来 ，DES 一 直 是 美国 的 国家 标准 ， 但 现在 它 逐 渐 地 带 上 了 历史 的 色彩 ， 因 为 56 比特 的 密 钥 太 短 了 , 无 
法 抵抗 现代 高 性 能 硬件 的 强行 攻击 。IDEA 采用 128 比特 的 密 钥 ， 它 可 能 是 最 有 效 的 对 称 块 加 密 算法 之 
一 ， 并 且 对 于 大 量 数据 的 加 密 ， 它 也 具有 多 方面 的 优点 。 

1997 年 ， 美 国 国家 标准 和 技术 研究 所 (NIST) 颁布 了 一 项 提议 ， 建 议 采 用 一 个 新 的 算法 来 代替 DES 
作为 新 的 高 级 加 密 标准 (AES); 2000 年 10 H, ARKA 11 个 不 同 国家 的 密码 学 家 提交 的 21 种 算法 中 ， 
选 出 了 Rijndael 算法 一 一 这 个 算法 因 其 健壮 性 和 高 效 性 脱颖而出 。 下 面 我 们 将 对 此 做 详细 的 介绍 。 

TEA 上 面 概述 的 对 称 算 法 的 设计 原则 在 剑桥 大 学 开发 的 微 加 密 算法 [Wheeler and Needham 
1994] 中 得 到 了 很 好 的 说 明 。C 语言 形式 的 加 密 函 数 如 图 11-7 所 示 。 








void encrypt(unsigned long k[], unsigned long text[]) { 
unsigned long y = text[0], z = text[1]; 1 
unsigned long delta = Ox9e3779b9, sum = 0; int n; 2 
for (n= 0; n< 32; n++) { 3 
sum += delta; 4 
ts (<< 4) + KO) ^ (2+sum) NE>> 3) + KEL); 5 
z+= (y<< 4) + k2) ^ Otsum) Ny>> 5) + kB); 6 
i 
text[0] =y; text{l] =z; 7 
} 
-~ 








图 11-7 TEA 加密 函数 


TEA 算法 利用 多 轮 整 数 加 法 、XOR (运算 符 ““”) 和 逮 辑 移 位 (“<<” 和 “>>”) 来 完成 对 明 
文中 位 模式 的 含混 和 扩散 。 每 个 明文 块 是 64 比特 的 ， 所 以 就 以 两 个 32 比特 整数 的 形式 保存 在 向 量 
text[ ] 中 。 密 钥 是 128 比特 的 ， 表 示 成 4 个 32 比特 的 整数 。 

在 32 轮 的 每 一 轮 中 ， 正 文 的 两 半分 别 








void decrypt(unsigned long k[], unsigned long text[]) { 

与 密 钥 逻辑 移动 后 的 部 分 以 及 彼此 相 组 合 ， unsigned long y = text[0], z = text[1]; 
见 程 序 的 第 5 行 和 第 6 行 。XOR 的 使 用 和 正 unsigned long delta = 0x9e3779b9, sum = delta << 5; int n; 
文 的 移 位 完成 了 含混 ， 正文 两 部 分 的 移 位 和 Sor (n= 0; n< 32; n++){ 
交换 则 完成 了 对 明文 的 扩散 。 在 每 个 循环 Z-= ((y << 4) + k[2]) ^O + sum) ^ ((y >> 5) + KL3)); 
H, 常数 delta 与 正文 的 每 个 部 分 相 组 合 ， Y -5 (<< 4) + EOD ^ (2 + sum) ^ (fz >> 5) + KEL); 
LSE RT ae He. | ，”” 
解密 函数 是 加 密 的 道 函 数 ， 参见 图 11-8。 text{O] =y; text[1] =z; 

这 段 程序 提供 了 一 个 安全 、 合 理 、 快 l) 








速 的 密 钥 加 密 算法 。 它 比 DES 算法 速度 快 ， 
而 程序 的 简洁 性 也 有 助 于 优化 和 硬件 实现 。 图 11-8 TEA 解密 函数 
128 比特 的 密 钥 足以 对 付 强行 攻击 。 它 的 作者 和 其 他 人 只 发 现 了 两 个 很 小 的 漏洞 ， 在 [Wheeler and 
Needham 1997] 中 有 详细 描述 。 

为 了 说 明 它 的 使 用 ， 图 11-9 给 出 了 一 个 简单 的 使 用 TEA 的 程序 ， 可 以 对 以 前 打开 的 文件 进行 加 密 
或 者 解密 (使 用 了 C stdio E). 

DES 数据 加 密 标准 (DES) [National Bureau of Standards 1977] 由 IBM 开发 ， 随 后 被 采用 为 美国 
的 国家 标准 ， 在 政府 和 商业 中 应 用 。 在 这 个 标准 中 ， 加 密 函 数 用 56 比特 的 密 钥 将 64 比特 的 明文 映射 
成 64 比特 的 密 文 。 算 法 中 有 16 个 依赖 密 钥 的 阶段 ， 被 称 为 轮 (round) 。 每 个 轮 中 ， 要 加 密 的 数据 都 
会 根据 由 密 钥 决定 的 一 组 比特 和 三 个 不 依赖 密 钥 的 移 位 值 转换 每 个 比特 的 位 置 和 值 。 使 用 20 世纪 70 ~ 
80 年 代 计 算 机 上 的 软件 来 实现 该 算法 是 非常 耗 时 的 ， 但 它 可 以 在 高 效 的 VLSI 硬件 中 实现 ， 并 且 可 以 
轻松 地 集成 到 网 络 接口 和 其 他 的 通信 芯片 上 。 
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void tea(char mode, FILE *infile, FILE *outfile, unsigned long k{]) { 
/* mode is 'e' for encrypt, 'd' for decrypt, k[] is the key.*/ 
char ch, Text{8]; int i; 


while(lfeaoftinfile)) { 
i = fread(Text, 1, 8, infile); /* read 8 bytes from infile into Text */ 
if (i <= 0) break; 
while (i < 8) { Text{it+] ='"} /* pad last block with spaces */ 


switch (mode) { 
case 'e': 
encrypt(k, (unsigned long*) Text); break; 
case 'd': 
decrypttk, (unsigned long*) Text); break; 
} 
fwrite (Text, 1, 8, outfile); /* write 8 bytes from Text to outfile */ 











图 11-9 TRA 的 应 用 

1997 年 6 月 ,一 次 著名 的 强行 攻击 改写 了 DES 未 被 攻破 的 历史 。 此 次 攻击 是 在 一 次 竞赛 中 ， 为 了 
演示 低 于 128 比特 的 密 钥 缺 乏 安全 而 进行 的 【www-. rsasecurity. com 1] 。 这 次 攻击 是 由 一 个 互联 网 用 户 
社团 召集 了 多 达 14 000 AHAI (PC 及 工作 站 ) ， 并 在 上 面 运行 相应 的 客户 程序 在 24 小 时 内 完成 的 
[ Curtin and Dolske 1998 ] 。 

BE PURE BY B KERA ZEB F/R eB EA DR PS 
客户 与 一 个 服务 器 交互 ， 服 务 器 负责 协调 客户 的 工作 ， 向 它们 发 送 要 检查 的 一 段 密 钥 值 ， 并 从 客户 处 
接收 相应 的 进展 报告 。 一 般 客户 计算 机 将 客户 程序 作为 一 个 后 台 活动 运行 ， 其 性 能 相当 于 200MHz 的 
Pentium 处 理 器 。 密 钥 在 12 周 内 被 破解 ， 检 查 的 值 占 所 有 可 能 值 (2 或 6x10”) 的 约 25% 。1998 年 ， 
由 Electronic Frontier Foundation[ EFF 1998] 开发 的 机 器 可 以 用 三 天 左右 的 时 间 成 功 地 破解 DES 密 钥 。 

尽管 在 很 多 商业 和 其 他 应 用 中 依然 使 用 DES 算法 ,但 应 该 认为 基本 的 DES 已 经 过 时 了 。 目 前 常用 
的 一 种 算法 被 称 为 三 重 DES 加 密 算法 (或 3DES) [ANSI 1985, Schneier 1996]。 它 包括 利用 两 个 密 铀 
K, 和 KK ， 并 使 用 三 次 DES, 

Espgs (K; ,K,,M) = Epes (K, „Does (K; „Epes (K; ,M) )) 

这 相当 于 给 出 了 一 个 112 比特 的 密 铀 ， 也 就 有 了 充足 力量 对 付 强行 攻击 。 但 其 缺点 是 效率 低 ， 因 
为 它 是 将 一 个 按 现代 标准 来 说 比较 慢 的 算法 应 用 了 3 次 。 

IDEA ”国际 数据 加 密 算法 (IDEA) 是 在 20 世纪 90 年 代 初 作为 DES 的 替代 者 被 开发 出 来 的 【Lai 
and Massey 1990, Lai 1992] 。 像 TEA 一样， 它 使 用 128 比特 的 密 钥 来 加 密 64 比特 的 块 ， 它 主要 基于 群 
代数 ， 有 8 轮 XOR、 模 2* 的 加 法 和 乘法 。 对 DES 和 IDEA 而 言 ， 同 样 的 函数 既 可 以 用 于 加 密 ， 也 可 以 
用 于 解密 : 这 个 性 质 对 于 能 在 硬件 上 实现 的 算法 非常 有 用 。 

IDEA 也 被 进行 了 广泛 的 分 析 ， 还 没有 发 现 重 大 的 漏洞 。 它 加 密 和 解密 时 间 约 为 DES 的 3 倍 。 

RC4 RC4 是 一 种 由 Ronald Rivest[ Rivest 1992a] 发 明 的 流 密 码 。 密 码 长 度 不 超过 256 字 节 。RC4 
很 容易 实现 [Schneier 1996, pp. 397-398] ， 而 且 加 密 与 解密 的 效率 约 为 DES 算法 的 10 倍 。 因 此 ，RC4 
算法 一 度 被 大 量 的 产品 广泛 使 用 ， 包 括 IEEE 802. 11 WiFi 网 络 ; 但 不 久之 后 ，Fluhrer 等 人 [2001] 就 
发 现 了 这 个 算法 的 缺陷 ， 针 对 这 个 缺陷 攻击 者 可 以 破解 一 些 密 钥 ， 这 也 导致 了 802. 11 安全 模块 的 重新 
设计 ( 见 11.6.4 节 的 进一步 讨论 ) 。 

AES 被 美国 NIST 选 做 高 级 加 密 标 准 算法 的 Rijndael 算法 是 由 Joan Daemen 和 Vincent Rijmen[ Dae- 
men and Rijmen 2000, 2002] 发 明 的。 算法 中 密码 块 的 大 小 和 密 钥 的 长 度 都 是 可 变 的 ， 密 钥 长 度 可 以 
为 128 192 或 256 比特 ， 密 码 块 的 大 小 可 以 是 128 192 或 256 比特 。 密 码 块 的 大 小 和 密 钥 的 长 度 都 可 
以 扩展 为 32 比特 的 整数 倍 。 算 法 根据 密码 块 的 大 小 和 密 钥 的 长 度 需要 9 ~ 13 轮 完成 。Rijndael 算法 可 
以 被 很 多 处 理 器 实现 ， 也 可 以 通过 硬件 实现 。 
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11.3.2 公 和 钥 (不 对 称 ) 算法 


至 今 只 开发 了 少数 几 个 实用 的 公 钼 方案 。 它 们 都 使 用 大 数 的 陷 门 函数 来 产生 密 钥 。 密 钥 玉 和 K, 
是 一 对 很 大 的 数 ， 而 加 密 函 数 用 它们 其 中 之 一 做 运算 ， 如 对 MORAG. RR IT Eb} H 
的 一 个 类 似 的 函数 。 如 果 求 寡 过 程 中 使 用 了 模 运算 ， 可 以 证 明 结果 和 的 原 值 是 相同 的 ， 即 

D(K,,E(K,,M)) =M 

想 要 和 别人 进行 安全 通信 的 主体 产生 一 对 密 钥 KX, 和 Ks,， 并 对 解密 密 钥 Ks 加 以 保密 ， 而 加 密 密 钥 
K, 可 以 公开 ， 以 供 任何 想 要 和 他 通信 的 人 使 用 。 加 密 密 钥 K, 可 以 看 成 单 向 加 密 函 数 E 的 一 部 分 ， 而 
K: 是 使 得 主体 p 能 够 转换 出 加 密 内 容 的 秘密 信息 。 所 有 K, 的 拥有 者 都 可 以 将 消息 加 密 为 Me ， 而 
只 有 拥有 密 钥 K, 的 主体 才 可 以 操作 这 个 陷 门 。 

大 数 函 数 的 使 用 造成 在 计算 函数 E 和 DD 时 有 很 大 的 运算 开销 。 我 们 后 面 可 以 看 到 ， 这 个 问题 的 解 
决 方法 是 仅 在 安全 通信 和 会话 的 初始 阶段 使 用 公 钥 。RSA 算法 显然 是 使 用 最 为 广泛 的 公 钥 算法 ， 我们 将 
详细 介绍 它 。 另 一 类 算法 是 基于 平面 椭圆 曲线 行为 派生 的 函数 。 这 些 算法 具有 同样 级 别 的 安全 性 ， 提 
供 了 用 低 开 销 加 密 / 解 密 函 数 的 可 能 ， 但 它们 的 实际 应 用 还 不 是 很 先进 ， 我 们 仅 简 要 地 说 明 一 下 。 

RSA Rivest, Shamir 和 Adelman (RSA) 设计 的 公 钥 密码 [Rivest et al. 1978] 基于 两 个 大 素数 
(KF 10”) 乘积 的 使 用 ， 其 基本 思想 就 是 分 解 大 整数 的 素 因 子 的 计算 是 非常 困难 的 ， 不 可 能 有 效 地 
计算 出 来 。 

尽管 做 了 广泛 的 研究 ， 但 还 没有 发 现 RSA 的 漏洞 ， 它 现在 被 广泛 使 用 。 下 面 将 给 出 RSA 方法 的 概 
述 。 要 找到 密 钥 对 <e，d > : 

1) 选择 两 个 大 素数 ，P 和 Q〔 每 个 数 都 大 于 10”) ， 并 且 计 算 : 

N=Px0 
Z=(P-1)x(Q-1) 
2) 对 于 d， 选 择 任意 和 2 互 质 的 数 OERE, ad M RASAT). 
我 们 用 比较 小 的 素数 已 和 0 来 说 明 计算 的 过 程 : 
P=13, Q=17-N=221, Z=192 
d =5 
3) 为 找 出 e， 求 下 列 等 式 ， 
exd=1modZ 
也 就 是 说 ，e xd 是 在 Z+1，2Z+1，3Z+1，…… 序列 中 ， 能 被 4 整除 的 最 小 数 。 
e xd = 1 mod 192 = 1,193,385,- 
385 可 被 d 整除 
e = 385/5 = 77 

为 了 使 用 RSA 方法 加 密 正 文 ， 明 文 被 分 成 长 度 为 正比 特 的 块 ， 其 中 2 < (也 就 是 说 ， 一 个 块 的 

数字 值 总 是 小 于 N 在 实际 应 用 中 , 上 通常 在 512 ~ 1024 之 间 )。 
k=7, 因为 27 = 128 

加 密 明 文 W 中 一 个 块 的 函数 是 : 

E’(e,N,M) = M mod N 

SFM, BSCR M” mod 221 

将 加 密 正 文 e 的 一 个 块 解密 成 原 明文 块 的 函数 是 : 

D'(d,N,c) = cc mod N 

Rivest, Shamir 和 Adelman 证 明 ， 对 于 满足 0<P<N 的 所 有 P，E' 和 D' 是 互 逆 的 ( 即 E'(D'(x)) = 
D'(E'(x)) =x). 

参数 e,，N 可 以 看 成 加 密 函 数 的 密 铀 ， 类 似 的 ，4 和 可 以 看 成 解密 函数 的 密 钥 。 于 是 我 们 可 以 写 
H K, = <e, N> 和 K,= <d, N>, 并 且 得 到 加 密 函 数 是 E(K,,M) = [M]; (注意 这 里 指出 了 加 密 的 消 
息 只 能 由 私 钥 K, 的 所 有 者 来 解密 ) ， 解 密 函 数 是 D(K,, iM}, = M )。 
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值得 注意 的 是 ， 所 有 的 公 钥 算法 都 有 一 个 潜在 的 弱点 ， 因 为 公 铀 对 于 攻击 者 也 是 公开 的 ， 他 们 可 
以 很 容易 地 产生 加 密 消息 。 这 样 他 们 就 可 以 穷 举 任意 的 比特 序列 ， 将 它 加 密 后 ， 与 未 知 的 加 密 消 息 比 
较 ， 直 到 获得 匹配 为 止 。 这 种 攻击 也 称 为 明文 选择 攻击 。 这 种 攻击 可 以 通过 确保 消息 比 密 钥 长 来 破解 ， 
此 时 破解 明文 的 复杂 度 就 已 经 超过 了 破解 了 密 钥 的 复杂 度 ， 所 以 这 种 类 型 的 强制 攻击 其 实 还 不 如 对 密 
钥 直 接 攻 击 。 

一 个 秘密 信息 的 准 接收 者 必须 公布 或 发 布 <e,，N > 对 ,而 自己 保留 d。 公 布 <e，N > 对 并 不 损害 d 
的 安全 性 ， 因 为 想 要 知道 4 必须 知道 最 初 的 两 个 素数 已 和 OO， 而 这 ， 又 只 有 对 N 进行 分 解 才 能 做 到 。 
对 于 大 数 的 因 式 分 解 (RNB) PHO ME > 10H, 于 是 六 > 10” ) ， 即 使 是 在 性 能 很 高 的 计算 栅 
上 ， 也 是 非常 耗 时 的 。1978 Æ, Rivest 等 人 得 出 结论 ， 按 照 已 知 的 最 好 的 算法 ， 在 每 秒 执行 100 万 条 
指令 的 计算 机 上 ， 分 解 一 个 规模 为 10” 的 数 ， 所 花费 的 时 间 将 超过 40 亿 年 ; 而 类 似 的 计算 任务 在 现在 
的 计算 机 上 只 需要 100 万 年 即 可 完成 。 

RSA 组 织 公布 了 一 系列 对 100 比特 以 上 十 进 制 数 的 分 解 挑 战 [ www. reasecurity. com [I]。 编 写 这 本 
书 的 时 候 ，174 比特 十 进 制 数字 〈 约 576 比特 的 二 进 制 数字 ) 被 成 功 分 解 了 ， 这 使 我 们 对 使 用 512 比特 
密 钥 的 RSA 的 安全 性 产生 了 怀疑 。RSA 组 织 (HAA RSA 算法 的 专利 权 ) 建议 采取 至 少 768 比特 〈 即 230 比 
特 十 进 制 数字 ) 长 的 密 钥 才能 保证 长 期 ( 约 为 20 年 ) 的 安全 性 。 一 些 程序 中 已 用 到 了 2048 比特 的 密 钠 。 

以 上 这 些 计算 都 假设 现在 知道 的 分 解 算法 是 可 用 的 最 佳 算法 。 对 于 RSA 和 其 他 使 用 大 素数 乘法 作 
为 它们 单 向 函数 的 不 对 称 算 法 ， 在 发 现 更 好 的 分 解 算法 后 必 将 会 变 得 很 脆弱 。 

椭圆 曲线 算法 ”目前 已 经 开发 并 测试 了 一 个 基于 椭圆 曲线 的 性 质 生 成 公 钥 / 私 钥 对 的 方法 。 详 细 的 
内 容 可 以 参见 Menezes 以 这 个 主题 写 的 书 [Menezes 1993 ] 。 密 钥 来 源 于 一 个 与 RSA 不 同 的 数学 分 支 ， 
它们 的 安全 性 不 是 建立 在 分 解 大 数 的 困难 性 的 基础 上 的 。 短 一 些 的 密 钥 也 可 以 是 安全 的 ， 加 密 和 解密 
所 需 的 运算 需要 也 远 小 于 RSA。 椭 图 曲线 加 密 算法 可 能 在 将 来 得 到 更 为 广泛 的 应 用 ， 尤 其 是 对 于 那些 
包含 了 移动 设备 的 系统 ， 因 为 它们 的 处 理 资源 很 有 限 。 由 于 该 算法 相关 的 数学 知识 包括 了 椭圆 曲线 一 
些 非常 复杂 的 性 质 ， 所 以 本 书 不 再 详细 讨论 。 


11. 3.3 混合 密码 协议 


公 钥 密码 学 对 电子 商务 而 言 是 很 便利 的 ， 因 为 它 不 需要 安全 的 密 钥 分 发 机 制 〈 当然 还 需要 对 公 
钥 进行 认证 ， 不 过 这 并 不 麻烦 ， 只 需 和 密 钥 一 起 发 送 成 为 一 个 公 钥 证 书 即 可 ) 。 但 公 钥 密码 的 运算 开 
销 巨 大 ， 甚 至 对 电子 商务 中 经 常 遇 到 的 中 等 大 小 的 消息 加 密 也 是 这 样 。 大 多 数 大 规模 分 布 式 系统 中 
所 采取 的 解决 办 法 是 ， 使 用 混合 加 密 方案 ， 其 中 公 钥 密码 用 来 认证 通信 的 双方 和 对 密 钥 交互 进行 加 
密 ， 这 个 密 钥 将 用 于 随后 所 有 的 通信 中 。 我 们 将 在 11. 6. 3 节 的 TLS 实例 研究 中 讨论 混合 协议 的 
实现 。 


11.4 数字 签名 


强大 的 数字 签名 功能 是 安全 系统 的 一 个 基本 需求 。 数 字 签 名 可 用 于 证 明 某 些 信息 的 场合 ， 例 如 为 
了 提供 可 信赖 的 声明 ， 可 将 用 户 的 身份 绑 定 到 他 们 的 公 钢 上 ， 或 者 将 一 些 访问 权限 和 角色 绑 定 到 用 户 
的 身份 上 。 
在 各 种 商业 和 个 人 交易 中 ， 数 字 签 名 的 必要 性 毋庸 置疑 。 从 文档 出 现 伊始 ， 手 写 签名 就 作为 一 种 
文件 证 明 ， 用 来 满足 收 件 人 在 以 下 方面 证 明文 档 的 需要 : 
© 可 信 性 (authentic): 它 使 收 件 人 确信 签名 者 特意 对 该 文 挡 进 行 了 签名 ， 并 且 文 档 没有 被 其 他 
人 算 改 。 
© 不 可 以 造 性 《unforgeable): 它 证 明了 是 签名 者 本 人 而 不 是 他 人 特意 签名 了 文档 。 该 签名 不 能 
被 拷贝 和 置 于 其 他 文档 上 。 
© 不 可 抵赖 性 〈non-repudiahle) ; 签名 者 不 能 否认 他 们 对 该 文档 进行 了 签名 。 
事实 上 ， 使 用 传统 的 签名 不 能 完全 获得 上 述 我 们 所 希望 的 签名 性 质 ， 因 为 难以 检测 签名 是 否 被 伪 
造 和 拷贝 ， 而 且 文 档 在 签名 后 可 以 被 答 改 ， 有 时 候 签名 者 在 无 意 间或 在 不 知情 的 情况 下 被 骗 对 文档 进 
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行 了 签名 ,但 是 考虑 到 欺骗 有 一 定 的 难度 且 被 查获 后 要 承担 的 责任 ,我 们 可 以 接受 这 种 威胁 。 与 手写 
签名 类 似 ， 数字 签名 是 将 一 个 唯一 的 且 秘密 的 签名 者 属性 绑 定 到 文档 中 。 在 手写 签名 中 ， 该 秘密 即 为 
签名 者 的 手写 体 模式 。 

保存 在 存储 的 文件 或 消息 中 的 数字 文档 的 性 质 和 纸 质 文档 的 性 质 完全 不 同 。 数 字 文 档 一 般 很 容易 
生成 、 拷 贝 和 改变 。 简 单 地 将 作者 的 身份 信息 附加 在 文档 之 后 ， 无 论 是 一 个 文本 字符 串 、 一 张 照片 还 
是 一 副手 写 体 图 像 ， 对 于 验证 而 言 没 有 任何 价值 。 

因此 需要 这 样 一 种 方法 ， 它 将 签名 者 的 身份 信息 绑 定 到 代表 文档 的 整个 比特 序列 上 ， 并 且 该 操作 
不 可 撤销 。 这 应 该 满足 了 上 述 的 第 一 个 需求 一 一 可 信 性 。 和 手写 签名 一 样 ， 文 档 的 日 期 不 能 由 签名 所 
保证 ， 签 名 文档 的 接收 方 只 知道 文档 在 接收 前 已 经 被 签名 了 。 

至 于 不 可 抵赖 性 ， 还 存在 这 样 一 个 问题 ， 该 问题 并 非 源 于 手写 签名 。 如 果 签 名 者 故意 泄漏 了 他 们 
的 私 钥 并 且 随 后 否认 了 已 签名 的 文档 ， 他 们 声称 由 于 私 钥 并 非 和 有， 签名 可 能 是 其 他 人 做 的 ， 那 又 当 
如 何 ? 在 “不 可 抠 赖 数字 签名 ”[ Schneier 1996] 的 主题 下 , 已 经 设计 出 一 些 协 议 来 解决 这 个 问题 ,但 
是 它们 相当 复杂 。 

一 个 带 有 数字 签名 的 文档 比 手 写 签名 更 难于 伪造 ， 但 是 “原始 文档 ”对 于 数字 文档 意义 并 不 大 。 
正如 我 们 将 从 对 电子 商务 需求 的 讨论 中 所 看 到 的 那样 ， 数 字 签 名 本 身 并 不 能 防止 电子 货币 的 两 次 支 
付 一 一 还 需要 其 他 的 措施 来 防范 这 种 问题 。 我 们 现在 将 描述 用 于 以 数字 方式 签署 文档 的 两 种 技术 ， 它 
们 都 依赖 密码 技术 的 使 用 ， 将 主体 的 身份 信息 绑 定 到 文档 中 。 

数字 签名 主体 4 可 以 通过 使 用 密 钥 K 加 密 电 子 文档 或 消息 M 并 且 将 加 密 的 信息 附加 到 M 的 明 
文 和 4 的 标识 上 ， 从 而 完成 对 1 的 签名 。 因 此 签名 后 的 文档 包括 及，A，[M]k, 。 签 名 可 以 被 随后 接收 
文档 的 主体 验证 以 确定 文档 是 由 4 发 出 的 ， 并且 包含 的 内 容 M REEL, 

如 果 使 用 一 个 密 钥 来 加 密 文档 ， 则 只 有 共享 该 密 钥 的 主体 可 以 验证 这 个 签名 。 但 是 如 果 使 用 公 负 
密码 ， 那 么 签名 者 使 用 他 自己 的 私 钥 加 密 ， 任 何人 只 要 拥有 相应 的 公 钥 就 可 以 验证 该 签名 。 这 是 对 传 
统 签名 更 好 的 模拟 ， 它 满足 了 更 为 广泛 的 用 户 需 要 。 签 名 的 验证 过 程 根据 用 以 产生 签名 的 是 密 钥 密码 
还 是 公 钥 密码 而 有 所 不 同 。 这 两 种 情形 将 分 别 在 11. 4. 1 节 和 11. 4. 2 节 进 行 盖 述 。 

摘要 函数 ”摘要 函数 也 称 为 安全 散 列 函数 ， 用 瓦 (M) 表示 。 必 须 仔细 设计 摘要 函数 以 确保 对 所 有 可 
能 的 消息 对 MAM, PRB CM) AHCM) 一 定 不 同 。 如 果 存 在 不 同 消息 履 和 MM 使 H(M) = HM’) , 
那么 会 出 现下 述 情况 : 一 个 不 诚实 的 主体 发 送 了 消息 M， 但 是 当面 临 问题 时 ,他 可 以 声称 他 发 送 的 原始 
消息 是 NM'， 并 且说 消息 一 定 是 在 传送 途中 被 自 改 了 。 我 们 将 在 11. 4. 3 节 讨 论 这 些 安全 散 列 函数 。 


11.4.1 公 铀 数字 签名 


公 钥 密码 特别 适合 于 生成 数字 签名 ， 因 为 它 相 对 简单 且 不 需要 文档 接收 者 、 文 档 签 名 者 或 任何 第 
三 方 之 间 的 通信 。 M 签名 的 文档 


Wy, vets: 8 进行 认证 的 方法 如 下 《 见 ，， HOD dks Pi 
1) 4 产生 一 个 密 铀 对 Kw 和 Ky... ARAH hes M 


| 
| 
| 
天。 发 布 出 去 ， 放 在 一 个 大 家 都 知道 的 地 方 。 É | 
| 
| 


2) 4 使 用 一 个 大 家 认可 的 安全 散 列 函数 妃 计 
算 消息 M 的 摘要 HCM) ， 并 用 私 钥 Kj 加密 摘要 来 


产生 签名 S= {H(M) | kr o Phin D (Kyu {h}) 
3) 4 把 已 签名 的 消息 [MJ =M, SRÆAB pe mW 7 
4) BAAS Kua ee $ 并 且 计 算 W 的 摘要 F h=h? 
H (doc) 


H(M) 。 如 果 结 果 和 解密 所 得 的 摘要 相 一 致 就 说 明 
签名 是 有 效 的 。 


RSA 算法 非常 适合 用 来 构造 数字 签名 。 注 意 ， 
这 里 签名 者 的 私 钥 是 用 来 加 密 签 名 的 ， 这 与 秘密 传 图 11-10 公 钼 的 数字 签名 
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输 数据 时 ， 接 收 者 用 公 钥 来 加 密 数 据 的 情形 相反 。 解 释 这 种 差别 是 非常 简单 的 ， 一 个 签名 只 能 用 只 有 
签名 者 知道 的 密 钥 来 建立 ， 但 此 签名 可 以 被 所 有 人 认证 。 


11.4.2 ” 密 钥 数字 签名 一 MAC 


一 个 密 钥 加 密 算法 不 应 该 用 于 加 密 数 字 签 名 并 没有 什么 技术 上 的 原因 ， 但 是 为 了 验证 这 样 的 签名 ， 
密 钥 必须 被 透露 出 去 ， 这 会 造成 一 些 问题 : 
。 签名 者 必须 安排 验证 者 接收 用 来 进行 可 靠 签名 的 密 钥 。 
。 在 某 些 上 下 文 和 不 同 的 时 刻 ， 有 必要 进行 认证 : 在 签名 时 ， 签 名 者 可 能 不 知道 验证 者 的 身份 。 
为 了 解决 这 个 问题 ， 验 证 可 以 委托 给 一 个 可 信赖 的 第 三 方 机 构 完成 ， 该 机 构 持 有 所 有 签名 者 的 
密 钥 ， 但 是 这 增加 了 安全 模型 的 复杂 度 并 且 要 求 与 可 信 的 第 三 方 进行 安全 通信 。 
。 我 们 不 希望 透 需 用 于 签名 的 密 铀 ， 因 为 这 会 削弱 签名 的 安全 性 ，- 个 签名 可 以 被 一 个 密 钥 持 有 
人 伪造 ， 而 该 持 有 人 未 必 是 密 钥 的 合法 拥有 者 。 

鉴于 上 述 原因 ， 用 公 铀 方法 来 产生 和 验证 签名 在 大 多 数 情况 下 提供 了 最 便利 的 解决 方案 。 

当 一 个 安全 通道 被 用 来 传输 未 加 密 的 消息 ， 但 是 需要 证 实 消息 的 真实 性 时 会 出 现 例外 。 因 为 一 个 
安全 通道 在 一 对 进程 之 间 提供 了 安全 通信 ， 可 以 使 用 11. 3. 3 节 介 绍 的 混合 方法 建立 共享 的 密 铀 并 用 它 
生成 低 开销 的 得 名 。 这 些 签名 称 为 消息 认证 码 (Message Authentication Code，MAC) ， 这 个 名 字 可 以 反 
映 出 它们 有 限 的 目的 一 一 它们 基于 一 个 共享 的 秘密 ， 在 一 对 主体 之 间 认 证 通信 。 

一 个 基于 共享 密 铀 的 低 开销 签名 技术 (如 图 11-11 -一 
所 示 ) 可 以 为 许多 不 同 的 目的 提供 足够 的 安全 保障 ， | 
我 们 将 在 下 面 进行 阐述 。 这 种 方法 基于 安全 通道 的 存 ”签名 | 
在 ， 通 过 该 通道 ， 共 享 的 密 钥 可 以 被 分 发 出 去 ， | | 

1) A 产生 一 个 随机 密 钥 K EY, 并且 通 过 安 l | 
全 通道 将 天 分 发 给 一 个 或 多 个 需要 认证 A 发 出 的 消息 
的 主体 。 这 些 主体 是 受信 和 任 的 ， 不 会 泄漏 共享 密 钥 。 

2) 对 于 4 希望 签名 的 任何 文档 MM, 4 将 性 入 连 _ - 





接 起 来 ,计算 连接 结果 的 摘要 : h = HOM +K), RA 
将 签名 好 的 文档 [有]k = 对 ,发 给 任何 希望 验证 签名 
的 人 摘要 有 是 一 个 消息 认证 码 )。 由 于 散 列 函 数 完 全 
模糊 了 的 值 ， 因 此 不 会 因为 的 泄漏 而 受到 损害 。 

3) 接收 者 8 将 密 乌 K 和 接收 到 的 文档 M 连接 起 
来 ,计算 摘要 hh = H(M + 天 ) 。 如 果 户 = 及 ， 那 么 签名 11-11 使 用 共享 密 钥 的 低 开 销 签名 
即 得 到 验证 。 

虽然 这 种 方法 有 上 述 的 不 是 ,但 是 由 于 它 不 涉及 加 密 ， 因 此 拥有 性 能 上 的 优势 (通常 安全 散 列 比 
对 称 加 密 快 3 ~10 倍 ， 见 11. 5. 1 节 )。11. 6. 3 节 描 述 的 TLS 安全 通道 协议 支持 MAC 的 广泛 运用 ,包括 
这 里 叙述 的 方案 。 该 方法 也 可 用 于 Millicent 电子 货币 协议 [ www. cdk5. net/security ] ， 在 该 协议 中 为 小 
金额 交易 保持 低 处 理 开销 是 尤为 重要 的 。 


11.4.3 安全 摘要 函数 


有 许多 种 方法 可 产生 固定 长 度 的 比特 模式 ， 这 些 比 特 模式 可 以 刻画 一 个 任意 长 度 的 消息 和 文档 。 
也 许 最 简单 的 方法 是 反复 用 XOR 操作 来 组 合 源 文档 的 固定 长 度 片断 。 这 样 的 一 个 函数 经 常用 于 在 通信 
协议 中 进行 错误 检测 ， 主 要 是 用 它 生 成 一 个 能 刻画 消息 的 较 短 的 、 定 长 的 散 列 值 ， 但 是 它 作 为 数字 签 
名 方案 的 基础 还 不 够 。 一 个 安全 摘要 函数 六 = HM) 应 该 有 以 下 性 质 : 

1) BEM, PADI h; 

2) 给 定 h， 很 难 算出 M; 

3) 给 定 必 ， 很 难 找到 其 他 消息 M, 使 得 HCM) = H(M') 。 


c 
| 
| 
验证 | 
| 
| 
L 
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这 样 的 函数 也 称 为 单 向 散 列 函数 ， 这 个 名 字源 于 前 两 个 性 质 。 人 性质 3 要 求 额外 的 特性 ， 即使 我 们 
知道 散 列 函数 的 结果 不 能 保证 唯一 (因为 摘要 是 一 个 信息 减损 的 转化 过 程 )， 我 们 需要 保证 ， 即 使 知 
EERIE k KEM, 攻击 者 也 不 能 找到 其 他 的 具有 相同 散 列 值 & 的 消息 M'"。 如 果 攻 击 者 可 以 做 
到 这 一 点 ， 那 么 他 们 可 以 不 需要 知道 签名 密 钥 ， 就 从 已 签名 文档 M 中 拷贝 签名 并 附加 在 E, MA 
造 签名 文档 MM'。 | 

必须 承认 ， 经 过 散 列 后 具有 相同 散 列 值 的 消息 的 集合 是 有 限 的 ， 攻 击 者 产生 一 个 有 意义 的 伪造 签 
名 会 十 分 困难 ,但 是 如 果 有 了 耐心， 他 还 是 能 办 到 的 ， 所 以 必须 对 此 进行 防范 。 在 生日 攻击 (birthday 
attack) 情况 下 这 种 可 能 性 显著 增加 : 

1) Alice 给 Bob 准备 了 两 个 合同 版 本 六 和 M'， 对 Bob 而 言 ， 放 是 有 意义 的 ， 而 M' 对 他 没有 意义 。 

2) Alice 制作 了 M 和 MM' 的 只 有 几 个 细微 差别 的 不 同 版 本 ， 例 如 在 行 尾 增加 空格 等 ， 两 个 版 本 的 差 
别 在 视觉 上 难以 分 辩 。 她 比较 所 有 的 玉 和 对 ' 的 散 列 值 ， 如 果 她 发 现 两 个 值 是 相同 的 ， 她 可 以 进行 下 一 
步 ; 如 果 不 相同 ， 她 继续 产生 两 个 文档 具有 细微 差别 版 本 ， 直 到 两 个 文档 产生 匹配 的 散 列 值 为 止 。 

3) 当 她 获得 一 对 有 着 相同 散 列 值 的 文档 和 M' 时 ， 她 把 有 意义 的 文档 路 给 了 Bob, ik Bob 用 他 
的 私 钥 对 文档 进行 数字 签名 。 当 Bob 把 签 好 的 文档 发 回 给 Alice， 她 可 以 用 和 六 匹 配 的 没有 意义 的 版 本 
M' 替 换 用， 并 且 保 留 着 从 M 得 来 的 签名 。 

如 果 我 们 的 散 列 值 有 64 比 畦 长 ， 那 么 平均 只 要 2” 个 MM 和 MM' 的 版 本 就 可 以 进行 攻击 。 这 个 值 太 小 
了 难以 让 人 放心 ， 因 此 我 们 需要 使 散 列 值 至 少 达到 128 比特 长 才 足 以 防范 这 类 攻击 。 

这 种 攻击 依赖 于 统计 学 悖 论 ， 即 所 谓 的 生日 悖 论 (birthday paradox) ， 在 给 定 的 一 个 集合 中 找到 一 
个 匹配 对 的 概率 远 远 大 于 在 其 中 寻找 与 给 定 的 个 体 匹配 的 概率 。Stallings[ 2005] 为 这 种 在 一 个 有 nn 个 
人 的 集合 中 存在 两 个 具有 相同 生日 的 人 的 概率 给 出 了 统计 学 的 推导 。 结果 是 ， 从 只 有 23 个 人 的 集合 中 . 
寻找 一 对 生日 相同 的 人 的 概率 ， 与 从 253 人 中 寻找 在 某 一 个 指定 的 日 期 过 生日 的 人 的 概率 是 相同 的 。 

为 了 满足 上 述 性 质 ， 必 须 小 心 设计 安全 摘要 函数 。 使 用 的 比特 级 操作 和 它们 的 先后 顺序 与 对 称 密 
码 学 相似 , 但 是 在 这 种 情况 下 操作 不 必 保 存 信息 ， 因 为 函数 不 需要 是 可 道 的 ， 所 以 安全 摘要 函数 可 以 
利用 任何 算术 方法 和 基于 比特 位 的 逻辑 操作 。 源 文本 的 长 度 通常 包含 在 摘要 数据 里 。 

在 实际 应 用 中 ， 广 泛 应 用 的 两 个 摘要 函数 是 MD5 算法 〈 之 所 以 这 样 命名 是 因为 它 是 由 Ron Rivest 
开发 的 消息 摘要 算法 系列 中 的 第 5 个) 和 SHA-1 (安全 散 列 算法 ) ， 这 两 个 算法 被 美国 国家 标准 和 技 
术 研究 所 (NIST) 采纳 为 标准 。 这 两 个 算法 都 经 过 仔细 测试 和 分 析 ， 可 以 充分 满足 可 预见 的 将 来 的 安 
全 需要 ， 同 时 它们 的 实现 相当 高 效 。 我 们 在 这 里 只 给 出 简短 的 描述 。Schneier[ 1996] 和 Mitchell 等 人 
[1992] 对 数字 签名 技术 和 消息 摘要 函数 给 出 了 详细 的 综述 。 

MDS MD5 算法 Rivest 1992] 共有 4 轮 操 作 ， 源 文本 以 512 比特 为 一 块 ， 每 一 块 又 划分 为 16 个 
32 比特 的 段 ， 每 轮 对 一 个 段 应 用 四 个 非 线性 函数 中 的 一 个 ， 结 果 产 生 一 个 128 比特 的 摘要 。MD5 是 当 
前 可 用 的 最 高 效 的 算法 之 一 。 

SHA-1 SHA-1 [NIST 2002] 是 一 个 产生 160 比特 摘要 的 算法 。 它 基于 Rivest 的 MD4 算法 (与 
MDS 算法 类 似 ) ， 并 附加 了 一 些 额 外 操作 。 运 行 速度 比 MDS 慢 得 多 ， 但 是 160 比特 的 摘要 可 以 提供 更 
大 的 安全 保障 以 防止 强行 攻击 和 生日 类 型 的 攻击 。SHA 算法 也 被 包含 在 标准 [NIST 2002] 中 ，SHA 算 
法 能 产生 更 长 的 摘要 (224、256 和 512 比特 ) 。 当 然 ， 摘 要 越 长 ， 生 成 摘要 的 开销 越 大 ， 需 要 的 存储 
空间 更 大 ， 数 字 签 名 和 MAC 通信 的 开销 也 越 大 。 但 是 ， 根 据 公布 的 对 SHA-1 改进 前 的 算法 的 攻击 记 
录 可 以 得 知 ，SHA-1 算法 是 易 受 攻击 的 【Randall and Szydlo 2004] 。 美 国 国 家 标准 和 技术 研究 所 宣称 将 
在 2010 年 之 前 将 美国 政府 软件 用 有 更 长 摘要 的 SHA 算法 重新 加 密 [NIST 2004], 

使 用 加 密 算法 生成 摘要 ”可 以 使 用 11. 3. 1 节 所 述 的 对 称 加 密 算法 来 生成 一 个 安全 摘要 。 在 这 种 情 
况 下 ， 应 该 将 密 钥 发 布 出 去 ， 让 任何 希望 验证 数字 签名 的 人 可 以 运用 摘要 算法 进行 有 关 的 验证 。 加 密 
算法 被 用 于 CBC 模式 ， 其 摘要 是 倒数 第 二 个 CBC 值 和 最 终 加 密 块 的 组 合 结果 。 


11.4.4 证 书 标准 和 证 书 权威 机 构 
X. 509 是 应 用 最 为 广泛 的 证 书 标准 格式 [CCITT 1988b], H4 X. 509 证 书 格式 是 X 500 标准 的 一 
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部 分 ， 用 于 进行 全 球 性 的 名 字 和 属性 目录 的 构建 [CCITT 1988a] ， 但 是 它 在 加 密 处 理 中 通常 定义 为 一 
种 独立 证 书 的 格式 。 我 们 将 在 第 13 章 描 述 X. 500 的 命名 标准 。 

X. 509 证 书 的 结构 和 内 容 如 图 11-12 所 示 ， 它 将 一 个 公 钥 绑 定 到 一 个 称 为 主题 (subject) 的 命名 实 
体 上 。 该 绑 定 存在 于 签名 中 ， 这 个 签名 被 男 一 个 称 为 ”一 一 
发 布 者 (issuer) 的 实体 发 布 。 证 书 有 一 个 有 效 期 | Oe EO 

. BEN —, 标识 名 、 签 名 
(period of valigity ) ， 其 中 包含 起 止 日 期 。< 标识 和 名 > 有 效 期 不 早 于 某 日 期 且 不 晚 于 另 一 个 日 期 
项 指 一 个 人 、 组 织 或 其 他 有 着 足够 上 下 文 信息 用 以 保 | 管理 信息 版 本 ,序列 号 
证 唯一 性 的 实体 的 名 字 。 在 一 个 完整 的 X 500 的 实现 | 扩展 信息 
中 ， 这 种 上 下 文 信息 可 以 从 命名 实体 所 在 的 目录 层次 
中 抽取 出 来 , 但 是 如 果 没 有 全 局 的 X. 500 实现 ， 这 种 图 11-12 X.509 证 书 格式 
关系 只 能 是 一 个 描述 性 的 字符 串 。 

这 种 格式 被 包含 在 TLS 协议 中 应 用 于 电子 商务 ， 它 在 实际 的 服务 和 窜 户 端的 公 钥 认证 中 得 到 广泛 
运用 。 某 些 众所周知 的 公司 和 组 织 已 经 建立 并 担当 了 证 书 权 威 机 构 (例如 ，Verisign 
[www. verisign. com], CREN[ www. cren. net] ) ， 其 他 公司 和 个 人 通过 向 这 些 组 织 提交 符合 要 求 的 身份 证 
明 来 获得 X 509 公 钥 证 书 。 于 是 ， 对 任何 X. 509 证 书 都 有 一 个 两 阶段 的 验证 过 程 : 

1) 从 一 个 可 信之 处 获得 发 布 者 〈 证 书 权威 机 构 ) 的 公 钥 证 书 。 

2) 验证 签名 。 

SPKI 方法 X50 方法 基于 标识 名 是 全 局 唯一 的 ， 但 这 被 认为 是 一 个 不 实际 的 目标 ， 它 不 能 很 好 
地 反映 当前 的 法 律 和 商业 实践 [Ellison 1996] ， 因 为 个 体 的 身份 不 能 被 看 做 是 唯一 的 ， 而 是 相对 于 其 他 
个 人 和 组 织 时 是 唯一 的 。 这 在 使 用 驾驶 执照 或 银行 证 明 信 认 证 一 个 人 的 名 字 和 地 址 (一 个 名 字 在 世界 
范围 内 不 可 能 唯一 ) 中 是 相当 常见 。 这 就 使 验证 链 加 长 ， 因 为 存在 许多 可 能 的 公 钥 证 书 的 发 布 者 ， 他 
们 的 签名 必须 通过 一 个 验证 链 认证 ， 最 后 认证 被 传 给 执行 验证 的 主体 知道 的 且 信 任 的 人 。 如 果 得 到 的 
认证 足以 让 人 信服 ， 而 且 验 证 链 中 的 许多 步 台 可 以 缓存 起 来 ， 以 便 在 未 来 某 些 场合 中 缩短 处 理 过 程 。 

上 述 讨论 是 最 近 开 发 的 简单 公 钥 基 础 设施 (Simple Public- key Infrastructure, SPKI) 的 依据 (参见 
RFC 2693[ Ellison et al. 1999 1) 。 这 是 一 个 建立 和 管理 公共 证 书 集合 的 方案 ， 它 使 得 用 逻辑 推理 来 处 理 
的 证 书 链 能 生成 派生 的 证 书 。 例 如 , “Bob 相信 Alice MAGE Ky” IF HL “Carol 在 Alice 的 密 铀 上 信 
任 Bob” ， 这 就 意味 着 “Carol 相信 Alice WAHE Kyu” o 


11.5 密码 实用 学 

在 11.5.1 节 中 ,我 们 将 比较 前 面 介绍 的 加 密 算法 和 安全 散 列 算法 的 性 能 。 我 们 把 加 密 算法 和 安全 
散 列 函数 放 在 一 起 考虑 是 因为 加 密 算法 有 时 候 被 用 来 进行 数字 签名 。 

在 11.5.2 节 中 ,我 们 将 讨论 围绕 密码 技术 的 应 用 一 些 非 技术 问题 。 自 从 功能 强大 的 密码 算法 出 现 
在 公共 领域 ， 还 没有 对 发 生 在 此 学 科 上 的 大 量 的 政治 性 讨论 进行 过 公正 的 评判 ， 而 且 对 该 学 科 的 争论 
也 没有 达成 明确 的 结论 。 我 们 的 目的 只 是 让 读者 了 解 一 些 正在 进行 的 争论 。 


11.5.1 密码 算法 的 性 能 


图 11-13 给 出 了 对 称 加 密 算法 和 本 章 讨论 的 安全 摘要 算法 的 性 能 比较 ,我 们 给 出 两 个 速度 上 的 度量 。 
在 “PRB 优化 ”这 一 列 的 数据 是 根据 Preneel 等 [Preneel et al. 1998] 提供 的 数据 给 出 的 。“Crypto++” 
这 一 列 的 数据 则 是 最 近 刚刚 从 窗 码 方案 [www. cryptopp. com] 的 Crypto ++ 开源 库 的 作者 处 得 到 的 。 同 
时 ， 在 列 标题 中 也 注 明 了 相应 性 能 测试 过 程 中 使 用 的 硬件 速度 。Preneel 的 实现 是 通过 手工 优化 的 汇编 
程序 ， 而 Crypto++ 的 实现 则 是 通过 一 个 优化 的 编译 器 生成 的 C++ 程序 。 

密 钥 的 长 庆 决 定 了 对 其 进行 强制 攻击 所 需 的 计算 开销 ， 加 密 算 法 的 真实 强度 很 难 衡量 ， 而 且 它 依 
赖 于 算法 能 否 成 功 地 加 密 明 文 。Preneel 等 [1998] 对 主要 的 对 称 算法 的 强度 和 性 能 进行 了 有 益 的 
讨论 。 
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密 钥 长 度 / 散 列 PRB 优 化 90MHz Crypto++ 2.1GHz 
KE Che 奔腾 I ( 光 字 节 / 秒 ) ARAFE] 
| TEA 128 一 23.801 
DES 56 2.113 21.340 
Triple-DES 112 0.775 9.848 
IDEA 128 1.219 18.963 
AES 128 — 61.010 
AES 192 — 53.145 
AES 256 — 48.229 
MD5 128 17.025 216.674 
SHA-1 160 — 67.977 








图 11-13 加密 和 安全 摘要 算法 的 性 能 


那么 ， 上 面 的 性 能 数字 对 于 现实 的 密码 应 用 程序 (例如 ， 为 保证 安全 的 网 络 交互 (11. 6. 3 节 讨 论 
的 https 协议 ) 使 用 的 TLS 机 制 中 的 应 用 ) 有 什么 意见 呢 ? 网 页 的 大 小 很 少 会 超过 100KB， 所 以 任何 一 
个 网 页 的 内 容 都 可 以 采用 任何 一 种 对 称 算法 由 一 个 如 今 看 起 来 很 慢 的 单 处 理 器 在 几 毫 秒 之 内 完成 加 密 。 
RSA 算法 主要 用 于 数字 签名 ， 而 且 RSA 算法 也 仅 需 儿 密 秒 的 执行 时 间 。 所 以 ,算法 性 能 对 haps 程序 的 
运行 速度 产生 的 影响 是 很 小 的 。 

不 对 称 的 算法 (如 RSA) 很 少 用 于 数据 加 密 ， 但 是 它们 的 性 能 对 于 签名 服务 还 是 很 有 吸引 力 的 。 
Crypto ++ 开源 库 的 网 页 显示 ， 利 用 图 11- 13 中 最 后 一 列 提 到 的 硬件 资源 ， 使 用 带 有 1024 比特 密 钥 的 
RSA 算法 对 一 段 待 加 密 的 信息 〈 可 以 认为 是 由 160 比特 的 SHA-1 算法 生成 的 ) 进行 签名 ， 耗 费时 间 为 
4.75ms， 而 验证 这 个 签名 则 仅 消 耗 了 0. 18ms。 


11.5.2 密码 学 的 应 用 和 政治 障碍 


上 述 算法 均 在 20 世纪 80 年 代 到 90 年代 之 间 出 现 ， 在 这 期 间 计 算 机 网 络 开 始 用 于 商业 用 途 ， 而 同 
时 计算 机 网 络 缺 乏 安全 性 也 已 成 为 制约 其 商业 化 的 一 大 问题 。 正 如 我 们 在 本 章 开 始 所 述 ， 美 国政 府 非 
常 抵制 密码 软件 的 出 现 。 有 两 个 原因 : 其 一 ， 美 国 国家 安全 局 (NSA) 有 这 样 一 个 政策 ， 它 将 其 他 国 
家 可 用 的 密码 长 度 限 制 在 一 个 较 低 的 水 平 ， 使 得 国家 安全 局 可 以 基于 军事 情报 的 目的 破解 任何 秘密 通 
信 ; 其 二 ,美国 联邦 调查 局 《FBI) 以 执法 为 目的 ， 要 确保 它 的 机 构 拥 有 访问 所 有 在 美的 私有 组 织 和 
个 人 所 使 用 的 密 钥 的 特权 。 

在 美国 ， 密 码 软 件 被 列 为 军需 品 ， 有 严格 的 出 口 限制 。 其 他 国家 ， 特 别 是 美国 的 盟国 ， 也 是 采取 
类 似 的 做 法 ， 在 某 些 情况 下 其 至 有 更 为 严格 的 限制 。 而 政治 家 以 及 一 般 公众 就 什么 是 密码 软件 和 它 潜 
在 的 非 军事 化 应 用 的 一 无 所 知 ， 这 使 得 问题 更 加 复杂 化 。 来 自 美国 软件 公司 的 抗议 认为 这 种 限制 抑制 
了 如 浏览 器 这 样 的 软件 的 出 口 ， 因 为 该 出 口 限制 最 终 确定 为 只 允许 使 用 不 超过 40 比特 密 钥 (不 太 强 的 
密码 ) 的 软件 代码 出 口 。 

出 口 限制 可 能 已 经 阻碍 了 电子 商务 的 发 展 ， 但 是 它们 在 防范 密码 技术 的 扩散 和 保持 密码 软件 不 被 其 
他 国家 所 控制 方面 并 不 是 特别 有 效 ， 因 为 在 美国 国内 外 有 许多 程序 员 热 衷 于 实现 和 分 发 密码 代码 。 当 前 
的 情形 是 ， 实 现 了 绝 大 多 数 密码 算法 的 软件 已 在 全 世界 流行 多 年 了 ， 包 括 出 版 物 [Schneier 1996] 和 在 
线 资料 、 商 业 和 免费 软件 [www. rsasecurity. com I, cryptography. org, privacy. nb. ca, www. openssl. org] 。 

一 个 例子 是 称 为 PGP (Pretty Good Privacy) 的 程序 [Garfinkel 1994, Zimmermann 1995], ， 它 最 早 
是 由 Philip Zimmermann 开发 的 ， 并 由 他 和 其 他 人 分 发 出 去 。 这 种 方式 使 得 密码 方法 的 使 用 不 被 美国 政 
府 所 控制 。PGP 已 经 被 开发 出 来 并 分 发 出 去 ， 目 的 是 使 所 有 计算 机 用 户 都 可 以 在 他 们 的 通信 中 使 用 公 
钥 密码 算法 ， 从 而 享受 由 此 带 来 的 私密 性 和 完整 性 。PGP 代表 用 户 生成 并 管理 公 钥 和 私 钥 ， 它 使 用 
RSA 公 钥 加 密 算 法 进行 认证 并 把 密 钥 传送 给 通信 伙伴 ， 并 使 用 IDEA 或 者 3DES 密 钥 加 密 算法 来 加 密 邮 
件 消息 和 其 他 文档 (PGP 刚 开发 时 ，DES 算法 的 使 用 被 美国 政府 控制 ) 。PGP 有 人 免费 版 本 和 商业 版 本 ， 
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它 经 由 不 同 的 分 发 站 点 发 布 给 北美 用 户 [ www. pgp. com] 和 世界 上 其 他 地 区 的 用 户 [International 
PGP] ， 这 样 可 以 完全 合法 地 逃避 美国 的 出 口 限制 。 

美国 政府 最 终 认 识 到 NSA 的 观点 是 毫 无 作用 的 ， 并 认识 到 这 带 给 美国 计算 机 业 的 危害 (无 法 在 全 
球 范围 内 出 售 网 络 浏 览 器 、 分 布 式 操作 系统 和 其 他 许多 产品 的 安全 版 本 )。2000 年 1 月 ， 美 国政 府 引 
人 了 一 个 新 的 政策 法 规 [www. bxa. doc. gov] ， 目 的 是 允许 美国 软件 供 货 商 出 口 包含 有 很 强加 密 功能 的 
软件 产品 。2004 年 ， 新 的 管理 措施 允许 出 口 包含 有 高 达 64 比特 加 密 密 钥 ， 以 及 最 高 达 1024 比特 的 用 
于 签名 和 交换 密 铀 的 公 钥 的 软件 产品 。 法 规 变 求 政府 “审查 ”出 口 的 软件 ， 允 许 软件 中 采用 更 长 的 密 
钥 。 但 是 仍 有 法 令 限制 出 口 所 给 的 国家 和 终端 用 户 。 详 情 参看 www. rsa com。 当 然 ， 美 国 并 不 持 有 密 
码 软 件 生产 或 出 版 的 专利 ， 对 所 有 知名 的 算法 都 已 有 了 开源 的 实现 [www. cryptopp. com]。 这 些 法 规 仅 
会 限制 某 些 美 国生 产 的 商业 软件 的 市 场 销售 。 

一 些 人 提出 通过 立法 来 坚持 软件 必须 包含 只 对 政府 法 律 执行 和 安全 机 构 有 效 的 人 口 或 者 后 门 ， 以 
便 由 国家 来 控制 密码 的 使 用 。 这 些 建议 源 自 这 样 的 设想 : 为 了 防止 秘密 的 通信 通道 可 以 被 各 种 各 样 的 
犯罪 分 子 使 用 。 在 数字 密码 出 现 之 前 ， 美 国政 府 一 直 依靠 截取 来 分 析 公 众 的 通信 信息 ， 而 数字 密码 的 
出 现 从 根本 上 改变 了 这 种 状况 。 但 是 这 些 立法 提案 妨碍 了 密码 学 的 使 用 ， 同 时 也 遭 到 关心 自身 隐秘 权 
的 公民 和 自由 团体 的 强烈 反对 。 记 今 为 止 ， 这 些 立法 提案 没有 一 个 被 采纳 ， 但 是 政治 上 的 努力 依旧 会 
持续 下 去 ， 最 终 必 将 引信 一 个 合法 的 使 用 密码 的 框架 。 


11.6 实例 研究 ，Needham- Schroeder、Kerberos、TLS 和 802. 11 WiFi 


最 初 由 Needham 和 Schroeder[1978] 发 表 的 认证 协议 是 许多 安全 技术 的 核心 ,我们 将 在 11. 6.1 节 
详细 说 明 。 最 为 重要 的 密 铀 认证 协议 的 应 用 是 Kerberos 系统 [Neuman and Ts6 1994 ] ， 这 是 我 们 第 二 个 
案例 的 主题 (参见 11. 6. 2 节 ) Kerberos 用 于 为 网 络 上 客户 和 服务 器 间 提 供认 证 服务 ， 从 而 形成 一 个 
管理 域 (内 部 互联 网 ) 。 

我 们 的 第 三 个 案例 〈 参 见 11. 6. 3 节 ) 是 关于 传输 层 安全 (TLS) 协议 的 ， 这 是 专门 用 于 满足 电子 
交易 安全 的 需要 的 ， 该 协议 目前 被 大 多 数 Web 浏览 器 和 服务 器 支持 ， 并 被 大 多 数 Web 商务 交易 采用 。 

最 后 一 个 案例 (参见 11.6.4 节 ) 将 阐述 工程 安全 系统 的 困难 。1999 年 发 布 的 IEEE 802. 11 WiFi 
标准 就 带 有 一 个 有 关 安 全 的 规约 。 但 是 ， 随 后 的 分 析 和 攻击 结果 表明 ， 这 个 规约 有 严重 的 不 足 ， 我 们 
将 揭示 这 种 不 足 ， 并 讨论 其 与 本 章 提 到 密码 学 原理 的 关系 。 


11. 6.1 Needham-Schroeder 认证 协议 


这 里 描述 的 协议 是 为 了 满足 在 网 络 上 安全 地 管理 密 钥 (和 口令 ) 的 需要 而 开发 的 。 在 这 项 工作 
[ Needham and Schroeder 1978] 发 布 的 时 候 ， 网 络 文件 服务 刚刚 出 现 ， 在 局 域 网 中 迫切 需要 更 好 的 安全 
管理 方法 。 

在 管理 型 网 络 中 ， 需 要 能 由 以 质询 ( 见 11.2.2 节 ) 的 形式 发 布 会 话 密 钥 的 密 钥 服务 来 满足 ， 这 就 
是 Needham 和 Schroeder 开发 的 密 钥 协议 的 目的 。 在 同一 篇 论文 中 ，Needham 和 Schroeder 也 陈述 了 一 种 
基于 使 用 公 钥 认证 和 密 钥 分 发 的 协议 ， 该 协议 不 依赖 已 有 的 密 钥 服务 器 ， 因 此 更 适合 于 在 互联 网 这 样 
有 着 许多 独立 管理 域 的 网 络 中 使 用 。 在 这 里 我 们 不 准备 描述 公 钥 版 本 ,但 是 将 在 11. 6. 3 节 描 述 的 TLS 
协议 是 它 的 一 个 变种 。 

Needham 和 Schroeder 提出 了 一 个 认证 和 密 铀 分 发 的 解决 方案 ， 它 基于 一 个 给 客户 提供 密 钥 的 认证 
服务 器 (authentication server) 。 认 证 服务 器 的 工作 是 为 进程 对 提供 一 个 安全 地 获得 共享 密 钥 的 方式 。 
为 了 做 到 这 一 点 ， 它 必须 使 用 加 密 消息 与 客户 通信 。 

Needham- Schroeder 密 钥 ”在 该 模型 中 ， 一 个 进程 代表 一 个 主体 A4，4 希望 启动 与 代表 主体 8B 的 
其 他 进程 的 安全 通信 ， 为 达到 这 个 目的 4 进程 可 以 获得 一 个 密 钥 。 这 个 协议 是 对 任意 两 个 进程 4 和 
B 来 说 的 ,但 是 在 客户 - 服务 器 系统 中 ,4 可 能 是 一 个 对 某 个 服务 器 8 发 起 一 系列 请 求 的 客户 。 提 供 


504 
1 


505 


296 + 第 11 章 安全 性 


给 4 的 密 钥 有 两 种 形式 ， 一 种 是 4 用 来 加 密 传递 给 B 的 消息 的 ， 另 一 种 可 以 安全 地 传递 给 B。( 后 者 
在 一 个 8 可 知 而 4 不 知道 的 密 钥 中 被 加 密 ， 因 此 号 可 以 对 其 进行 解密 并 且 该 密 钥 在 传输 过 程 中 未 被 
KL) 

认证 服务 器 S 维护 一 张 表 ， 为 系统 所 知 的 每 个 主体 保存 一 个 名 字 和 一 个 密 钥 。 密 钥 只 用 来 认证 连 
接 到 认证 服务 器 的 客户 进程 ， 并 在 客户 进程 和 认证 服务 器 之 间 安 全 地 进行 消息 传输 。 该 密 钥 从 不 泄漏 
给 第 三 方 ， 在 密 钥 生 成 后 在 网 络 上 最 多 传送 一 次 〈 在 理想 情况 下 ， 一 个 密 钥 应 该 总 是 通过 其 他 途径 传 
送 ， 例 如 以 书面 形式 或 口头 形式 ， 以 避免 密 钥 暴露 在 网 络 上 ) 。 一 个 密 钥 与 在 集中 式 系统 中 用 来 认证 用 
户 的 口令 等 价 。 对 于 主体 是 人 的 情况 ， 认 证 服务 持 有 的 名 字 是 他 们 的 “用 户 名 ”， 密 钥 是 他 们 的 口令 ， 
它们 都 是 由 用 户 在 向 代表 他 们 的 客户 进程 发 出 请 求 时 提供 的 。 

这 个 协议 基于 认证 服务 器 产生 和 传送 的 票证 。 票 证 是 一 个 加 密 了 的 消息 ， 它 包含 用 于 在 4 ABS 
间 通 信 的 密 钥 。 我 们 将 Needham 和 Schroeder 的 密 钥 协议 中 的 消息 制 成 表格 ， 如 图 11-14 所 示 。 其 中 S 











”是 认证 服务 器 。 
1.4-S A, B, Ny AVERSA FF 5 Bik aH 
2.S 一 4 {Na By Kup 5 返回 用 4 的 密 钥 加 密 的 消息 ， 消 息 含有 新 生成 的 密 
{Kiss AKo) Ka GHK ABERE RE o TSS NB 


明 该 消息 是 响应 前 一 个 消息 的 。 由 于 只 有 5 知道 4 的 密 
钥 ， 所 以 4 相信 是 5 发 送 了 消息 


3.4—>B: {Kie AKo 4 将 “票证 "发 送 给 B 

4.B—A: {Na Ks 8 解密 票证 ， 并 使 用 新 的 密 钥 Ks 来 加 密 另 一 个 当 
前 时 间 Ns 

5.4—>B: AN 一 PK 4 通过 返回 一 致 的 当前 时 间 we 的 转换 给 了 证 明 它 





是 前 一 个 消息 的 发 送 者 








图 11-14 Needham- Schroeder 密 钥 认证 协议 


N, 和 Ns 是 当前 时 间 。 当 前 时 间 是 一 个 整数 值 ， 它 被 加 入 到 消息 里 以 说 明 该 消息 是 新 近 产 生 的 。 
当前 时 间 只 被 使 用 一 次 ， 并 在 需要 的 时 候 生成 。 例 如 ， 当 前 时 间 可 以 是 一 系列 顺序 的 整数 值 或 者 可 以 
通过 读 取 发 送 机 器 的 时 钟 值 生成 。 

如 果 成 功 完 成 协议 ,那么 4 和 B 都 可 以 确定 任何 从 对 方 接收 到 的 用 Ka 加 密 的 消息 确实 是 来 自 对 
方 的 ， 任 何 发 送 给 对 方 的 用 Ks 加 密 的 消息 只 能 被 对 方 或 5(5 被 认为 是 可 信任 的 ) 解密 ， 这 是 因为 只 
有 传送 带 有 Ks 的 消息 才能 用 4 或 B BRAME. 

该 协议 存在 一 个 不 足 之 处 ， 因 为 B 没 有 理由 相信 消息 3 是 新 近 产 生 的 。 入 侵 者 如 果 获 得 密 钥 Ks 并 
且 复制 了 票证 和 认证 者 消息 (Kes, Ale, QM RRR TRO REA 的 授权 下 ， 因 客户 程序 运行 错 
误 而 被 置 于 一 个 暴露 的 地 方 。) ， 他 就 可 以 假扮 4， 并 使 用 上 述 内 容 发 起 和 8 的 信息 交换 。 这 种 攻击 会 
损害 密 钥 Ke 的 旧 值 ， 在 现今 的 术语 中 ，Needham 和 Schroeder 的 威胁 列表 中 没有 包括 这 种 可 能 性 ,但 
多 数 观点 认为 应 该 包括 这 种 可 能 性 。 通 过 给 消息 3 增加 当前 时 间或 时 间 蕉 可 以 弥补 这 个 不 足 ， 所 以 消 
息 变 成 : {Ks ,4, 夺 os， 于 解密 这 个 消息 并 检查 上 是否 是 新 近 的， 这 就 是 Kerberos 采取 的 解决 方案 。 


11.6.2 Kerberos 


Kerberos 是 20 世纪 80 年 代 在 MIT 大 学 [Steiner et al. 1988] 开发 出 来 的 ， 目 的 是 为 MIT 校园 网 和 
其 他 内 部 互联 网 提供 一 系列 认证 和 安全 设施 。 根 据 用 户 和 组 织 的 经 验 和 反馈 ，Kerberos 协议 经 历 了 多 
次 修订 和 改进 。 下 面 要 描述 的 是 版 本 5[ Neuman and Ts6 1994] ， 它 遵循 互联 网 的 标准 轨迹 (参见 
RFC4120[ Neuman et al. 2005 ] ) ， 目 前 被 许多 公司 和 大 学 使 用 。Kerberos 的 实现 源 代 码 可 以 从 MIT 
[ Web. mit. edul] 获得 。 它 包含 在 OSF 的 分 布 式 计算 环境 (DCE)[ OSF 1997] ， 并 且 作 为 微软 默认 的 认 
证 服务 [www. Microsoft. com If], $f Kerberos 的 提议 认为 可 以 利用 公 铀 证 书 来 进行 主体 的 初始 认证 
(参见 图 11-15 步骤 A) [ Neuman et al. 1999], 
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图 11-15 显示 了 Kerberos 的 进程 体系 结构 ，Kerberos 处 理 三 类 安全 对 象 ; 

© iE (ticket); Kerberos 票证 授予 服务 给 每 个 客户 发 一 张 标 记 ， 该 标记 用 于 发 送 给 某 一 个 服务 
器 ,证实 Kerberos 最 近 已 经 认证 了 发 送 者 。 票 证 包括 过 期 时 间 和 新 生成 的 会 话 密 钥 以 供 客户 和 
服务 器 使 用 。 

e 认证 《authenticator) : 由 客户 构造 的 一 个 标志 ， 并 发 送 给 服务 器 ， 用 于 证 明 用 户 身 份 以 及 任何 
与 服务 器 的 通信 的 currency。 一 个 认证 器 仅 可 以 使 用 一 次 ， 它 包含 客户 的 名 字 和 时 间 改 ， 并 用 
恰当 的 会 话 密 钥 加 密 。 

© ZEBRA (session key): 会 话 密 钥 是 由 Kerberos 随机 产生 的 ， 在 与 某 个 服务 器 通信 时 发 给 客户 
使 用 。 对 于 与 服务 器 进行 的 所 有 通信 ， 并 非 必须 要 加 密 ; 会 话 密 钥 就 是 用 来 对 与 要 求 加 密 的 与 
服务 器 之 间 的 通信 进行 加 密 ， 也 用 来 对 所 有 认证 器 加 密 (参见 上 面 的 描述 ) 。 

Kerberos 密 铀 分 发 中 心 


请 求 用 会 话 密 钥 加 密 
应 答 用 会 话 密 钥 加 密 





图 11-15 Kerberos 系统 体系 结构 


客户 进程 对 它们 所 使 用 的 每 个 服务 器 都 必须 提供 票证 和 会 话 密 钥 。 为 客户 - 服务 器 的 每 次 交互 都 
提供 新 票证 和 密 钥 是 不 切实 际 的 ， 因 此 大 多 数 票证 允许 客户 在 几 小 时 内 使 用 以 便 与 某 一 个 服务 器 进行 
XE, 直至 到 期 为 止 。 

一 个 Kerberos 服务 器 也 称 为 一 个 密 钥 分 发 中 心 (KDC) 。 每 个 KDC 提供 认证 服务 (AS) 和 票证 授 
FIRS (TCS) 。 登 录 时 ，AS 用 网 络 安全 的 口令 认证 用 户 ， 然 后 给 代表 用 户 的 客户 进程 提供 一 张 能 授 
F HIE Fix (ticket granting ticket) 和 用 来 与 TCS 通信 的 会 话 密 钥 。 因 此 ， 一 个 客户 进程 及 其 子 进 程 
可 以 用 授予 票证 的 票证 从 TGS 中 获取 用 于 指定 服务 的 票证 和 会 话 密 钥 。 

Needham- Schroeder 协议 与 Kerberos 协议 很 接近 ，Kerberos 用 时 间 值 (表示 日 期 和 时 间 的 整数 ) 表 
示 当 前 时 间 。 这 有 两 个 目的 : 

© 防止 从 网 络 中 截取 的 昌 消 息 的 重播 ， 或 重用 在 授权 用 户 已 退出 登录 的 机 器 内 存 中 发 现 的 旧 票 证 
(在 Needham-Schroeder 协议 中 用 当前 时 间 达 到 此 目的 )。 
。 应 用 票证 生命 期 ， 使 系统 在 用 户 不 再 是 系统 的 授权 用 户 时 收回 他 们 的 权利 。 

下 面 我 们 详细 描述 Kerberos 协议 ， 所 用 符号 如 下 所 示 。 首 先 ， 我 们 描述 客户 为 访问 TCS 而 获得 票 
证 和 会 话 密 钥 的 协议 。 

Kerberos 票证 有 国定 的 有 效 期 : 从 Fra, Slt, BR. BP C 访问 服务 器 5 的 票证 的 形式 如 下 : 
1C,5,ti ,t2,Kes}x, » WW {ticket(C,S)},, o 

客户 名 包含 在 票证 中 ， 以 免 被 冒充 者 使 用 (将 在 后 文 介绍 )。 图 11-15 PRA SO Ti 
述 栏 4 中 的 内 容 ， 注 意 消息 1 没有 加 密 ， 也 不 含 C 的 口令 。 它 包含 当前 时 间 值 ， 用 来 检查 应 答 的 有 
效 性 。 
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A. 每 次 登录 时 ， 将 获得 Kerberos 会 话 密 钥 和 TCS 票证 
消息 头 
1.C>A; 请 求 TCS 票证 PE A 客户 C 请 求 Kerberos 认证 服务 器 4 提供 与 票证 授 








予 服务 通信 的 票证 
2. A>C: TCS 会 话 {Ker sn} xo» {ticket(C,T) } xps A 返回 一 条 消息 ， 其 中 包含 用 A 的 密 钥 加 密 的 票 
密 钥 和 票证 pe 证 和 C 要 用 的 会 话 密 钥 (与 了 一起 使 用 ) 。 当 前 时 
RAC, T, t, fa, Ker fal 是 用 Ke 加 密 的 ， 它 表明 消息 来 自 消 息 1 的 接 
收 者 ， 他 必须 知道 Kc 





BF: 

A Kerberos 认证 服务 的 名 字 n 时 间 

T terberos 票证 授予 服务 的 名 字 t HAR 

C 客户 的 名 字 票证 有 效 期 的 开始 时 间 


票证 有 效 期 的 截止 时 间 

消息 2 有 时 称 为 “质询 ”， 因 为 它 Sonn MR ae 息 是 只 有 知道 C MK, 后 才 有 用 的 信息 。 
冒充 者 企图 靠 发 消息 1 来 模仿 C， 但 由 于 无 法 对 消息 2 解密 ， 他 没 法 继续 下 去 。 对 于 用 户主 体 ，Kc 是 
用 用 户 的 口令 拼凑 出 来 的 。 客 户 进程 会 提示 用 户 键入 人 口令， 并 试图 用 该 口令 对 消息 2 解密 。 如 果 用 户 
给 出 正确 的 口令 ， 客 户 进程 就 能 获得 会 话 密 钥 Kcr 和 用 于 票证 授予 服务 的 有 效 票证 ; 否则 ， 它 获得 无 意 
义 的 信息 。 服 务 器 有 它们 自己 的 密 铀 ， 只 有 有 关 的 服务 器 进程 和 认证 服务 器 知道 这 些 密 钥 。 

从 认证 服务 获得 有 效 票 证 后 ， 客 户 C 可 以 用 它 与 票证 授予 服务 通信 ， 以 多 次 获得 其 他 服务 器 票证 ， 
直至 票证 到 期 为 止 。 因 此 ， 为 了 获得 某 一 服务 器 S 的 票证 ，5C 构造 一 个 用 Ker 加 密 的 认证 器 ， 形 式 如 
下 ;，{C,， thes ik {auh(C) 1。 ， 然 后 向 了 发 送 请 求 ; 


Ker ? 


B. 每 次 客户 - 服务 器 会 话 时 ， 将 为 服务 器 S 获得 票证 


3. CT: 请 求 服务 {auth( C) | ker C 请 求 票证 授予 服务 器 T 提供 与 另 一 服务 
S 的 票证 | ticket(C,T) | gn,S,n 器 $ 通信 的 票证 





4.T>C: 服务 票证 {Kes,n| kop, {ticket(C,S) } ks 7 检查 票证 。 若 票证 有 效 ，7 就 生成 新 的 
随机 会 话 密 钥 Kes, AH 5 的 密 钥 Ks 加 密 的 
S 的 票证 一 起 返回 





然后 C 开始 向 服务 器 S 发 出 请 求 消息 : 


C. 发 布 一 个 带 有 票证 的 服务 器 请 求 
{auth( C) } kog» CH SRE, MEX C 新 生成 的 认证 器 及 请 求 
{ ticket(C,S) } Ks Tequest ,n 若 要 求 数 据 保 密 ， 则 用 天 cs 加 密 该 请 求 








为 了 让 客户 确信 服务 器 的 真实 性 ，5 应 向 C 返回 一 个 当前 时 间 n (为 减少 需要 的 消息 数 ， 可 以 把 它 
包含 在 含有 服务 器 对 请 求 的 应 答 的 消息 中 ): 


D. 认证 服务 器 (可 选 ) 
6. S>C: 服务 器 认证 CTH): 5 向 C 发 送 当前 时 间 n,n 用 Kcs 加 密 








Kerberos 的 应 用 ”Kerberos 是 MIT 为 在 Athena 项 目 中 使 用 而 开发 的 ， 是 面向 大 学 教育 的 校园 网 计 
算 设 施 的 ， 其 中 有 许多 工作 站 和 服务 器 ， 为 5000 多 比特 用 户 提供 服务 。 运 行 环境 中 客户 、 网 络 和 提供 
网 络 服务 的 机 器 的 安全 性 都 不 可 信赖 一 一 例如 ， 未 对 工作 站 进行 保护 以 防止 安装 用 户 开发 的 系统 软件 ， 
而 对 服务 器 (除了 Kerberos 服务 器 外 ) 提供 了 多 余 的 安全 保障 用 以 防止 利用 软件 配置 进行 物理 干扰 。 

Kerberos 在 Athena 系统 中 提供 了 所 有 的 安全 保护 ， 它 用 于 认证 用 户 和 其 他 主体 。 大 多 数 运 行 在 网 
络 上 的 服务 器 都 进行 了 扩展 ， 从 而 在 每 个 客户 - 服务 器 交互 开始 时 要 求 客户 提供 票证 ， 包 括 文 件 存储 
(NES 和 Andrew 文件 系统 ) 、 电 子 邮 件 、 远 程 登录 和 打印 。 用 户 的 口令 只 有 用 户 自己 和 Kerberos 认证 服 
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务 知道 。 服 务 拥有 的 密 钥 只 为 Kerberos 和 提供 服务 的 服务 器 所 知 。 

我 们 将 描述 用 Kerberos 来 进行 用 户 登 录 认 证 的 方式 。 如 何 使 用 Kerberos 来 保护 NFS 文件 服务 将 在 
第 12 章 描述 。 

用 Kerberos 登录 当 用 户 登 录 到 工作 站 时 ， 登 录 程序 将 用 户 名 发 送 给 Kerberos 认证 服务 。 如 果 用 
户 名 通过 认证 服务 的 认证 ， 则 返回 用 该 用 户 的 口令 加 蜜 的 会 话 密 铀 、 当 前 时 间 和 用 于 TGS 的 票证 。 登 
录 程 序 在 口令 提示 下 尝试 用 用 户 键 人 的 口令 解密 会 话 密 钥 和 当前 时 间 。 如 果 口 令 正确 ， 登 录 程 序 即 可 
获得 会 话 密 钥 和 当前 时 间 。 它 检查 当前 时 间 ， 并 保存 好 会 话 密 钥 和 票证 以 备 随后 与 TGS 通信 时 使 用 。 
这 时 ， 登 录 程 序 可 以 从 内 存 中 删除 用 户口 令 ， 因 为 票证 现在 可 以 用 于 认证 该 用 户 。 然 后 ， 这 台 工 作 站 
上 的 用 户 的 登录 会 话 开 始 。 注 意 ， 用 户 的 口令 从 来 不 暴露 在 可 能 被 监听 的 网 络 上 ， 它 只 保存 在 工作 站 
E, 一 旦 登录 立刻 从 内 存 中 删除 。 

通过 Kerberos 访问 服务 器 ”运行 在 工作 站 上 的 程序 一 旦 需要 访问 一 个 新 的 服务 ， 它 就 向 票证 授予 
服务 请 求 该 服务 的 票证 。 例 如 ， 当 一 个 UNIX 用 户 希 望 登录 到 一 个 远程 计算 机 时 ， 用 户 的 工作 站 上 的 
rlogin 命令 程序 从 Kerberos 票证 授予 服务 处 获得 票证 用 来 访问 nogind 网 络 服务 。 在 用 户 希 望 登 录 的 计算 
BLL, rlogin 命令 程序 响应 远程 机 器 的 dogind 进程 的 要 求 ， 发 送 票 证 和 一 个 新 的 认证 器 。zlogind 程序 使 
用 tlogin 服务 的 密 钥 解密 票证 ， 并 检查 票证 的 有 效 性 〈 即 票证 是 否 过 期 ) 。 服 务 器 必须 小 心地 把 它们 的 
密 钥 存储 到 人 侵 者 难以 访问 的 地 方 。 

然后 ，rlogind 程序 使 用 包含 在 票证 中 的 会 话 密 钥 解 密 认证 器 并 检查 认证 器 是 否 为 新 近 产生 的 ( 认 
证 器 只 能 使 用 一 次 ) 。 一 旦 logind 程序 确信 票证 和 认证 器 都 是 有 效 的 ， 它 就 不 再 需要 检查 用 户 的 名 字 
和 口令 ， 因 为 dogind 程序 已 经 知道 用 户 的 身份 ， 并 建立 一 个 远程 用 户 的 登录 会 话 。 

Kerberos 实现 Kerberos 可 以 作为 一 个 在 安全 机 器 上 运行 的 服务 器 来 实现 。 可 以 提供 一 些 库 供 客 
户 应 用 程序 和 服务 程序 使 用 。 也 可 以 采用 DES 加 密 算 法 ， 不 过 这 是 作为 独立 模块 实现 的 ， 可 以 很 容易 
地 被 蔡 换 掉 。 

Kerberos 服务 是 可 扩展 的 一 一 它 将 世界 分 成 不 同 的 认证 区 域 ， 称 为 域 (realms), PARA H DOH 
Kerberos 服务 器 。 大 多 数 主 体 仅 在 一 个 域 中 登记 ， 但 Kerberos 的 票证 授予 服务 器 〈TCS) 在 所 有 域 中 登 
记 。 通 过 本 地 TGS， 主 体 可 以 在 其 他 域 中 的 服务 器 上 认证 自己 。 

在 一 个 域 中 可 以 有 多 个 认证 服务 器 ， 它 们 都 有 同一 个 认证 数据 库 的 备份 。 认 证 数据 库 的 复制 采用 
一 种 简单 的 主 从 技术 。 由 Kerberos 数据 库 管 理 服 务 (KDBM) 负责 更 新 主 找 贝 ， KDBM 只 在 主机 上 运 
行 。KDBM 处 理 用 户 改变 口令 的 请 求 ， 以 及 系统 管理 员 增删 主体 和 改变 口令 的 请 求 。 

为 了 使 这 种 方案 对 用 户 透 明 ，TGS 的 生命 期 应 该 至 少 与 可 能 最 长 的 登录 会 话 一 样 长 ， 因 为 使 用 过 
期 的 票证 会 导致 服务 请 求 被 拒绝 ， 唯 一 的 补救 方法 就 是 让 用 户 重 新 认证 登录 会 话 ， 然 后 为 所 有 使 用 中 
的 服务 请 求 新 的 服务 器 票证 。 在 实际 应 用 中 ， 域 的 票证 生命 期 一 般 为 12 小 时 。 

对 Kerberos 的 评价 ”上 面 描 述 的 Kerberos 版 本 5 针对 早期 版 本 的 一 些 批评 做 了 改进 [Bellovin and 
Merritt1990 Burrows et al. 1990] 。 对 Kerberos 版 本 4 最 主要 的 批评 是 认证 器 中 的 当前 时 间 是 用 时 间 戳 来 
实现 的 ， 且 防止 认证 器 重播 至 少 需要 客户 和 服务 器 时 钟 松散 同步 。 如 果 使 用 同步 协议 使 客户 和 服务 器 
时 钟 松散 同步 ， 那 么 同步 协议 本 身 也 必须 安全 ， 并 且 能 防范 安全 攻击 。 有 关 时 钟 同步 协议 的 内 容 请 参 
考 第 14 章 。 

Kerberos 5 的 协议 定义 允许 认证 器 中 的 当前 时 间 可 以 用 时 间 蕉 或 者 序号 实现 ， 无 论 用 哪 种 方法 ， 都 
要 求 它们 是 唯一 的 ， 并 且 服 务 器 应 该 保留 最 近 收 到 的 每 个 客户 的 当前 时 间 ， 以 便 检查 它们 有 没有 重播 。 
这 种 要 求实 现 起 来 很 不 方便 ， 并 且 在 服务 器 出 现 故 障 时 难以 得 到 保证 。Kehne 等 [1992] 已 经 公布 了 
一 个 不 依赖 同步 时 钟 的 Kerberos 协议 的 改进 建议 。 

Kerberos 的 安全 性 依赖 于 有 限 的 会 话 生命 期 一 一 TGS 票证 的 有 效 期 通常 只 有 几 个 小 时 。 这 个 有 效 
期 必须 选 得 足够 长 ， 以 避免 服务 中 断 造成 的 不 便 ， 同 时 又 必须 足够 短 ， 以 确保 撤销 登记 的 用 户 或 降级 
的 用 户 不 会 继续 长 期 使 用 资源 。 这 可 能 会 给 某 些 商业 应 用 带 来 困难 ， 因 为 要 求 用 户 在 交互 过 程 中 的 任 
一 点 提供 新 的 认证 细节 可 能 会 妨碍 实际 应 用 。 
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11.6.3 ”使 用 安全 套 接 字 确保 电子 交易 安全 


安全 套 接 字 层 (SSL) 协议 最 初 是 由 Netscape 公司 [ www. mozilla. org] 开发 的 ， 它 提出 了 一 种 标准 
用 于 满足 上 述 需 求 。SSL 的 扩展 版 本 传输 层 安全 (TLS) 协议 已 经 被 采纳 为 互联 网 标准 ， 具 体 描述 参见 
RFC 2246[ Dierk and Allen 1999]。 大 多 数 浏览 器 都 支持 TLS 协议 ， 它 广泛 应 用 于 互联 网 电子 商务 。 它 
的 主要 特性 如 下 : 

协商 加 密 和 认证 算法 ”在 一 个 开放 的 网 络 中 ， 我 们 不 应 该 认为 所 有 的 人 都 使 用 相同 的 客户 软件 ， 
也 不 能 认为 所 有 的 客户 和 服务 器 软件 都 包含 特定 的 加 密 算法 。 实 际 上 ， 一 些 国家 的 法 律 试图 限制 只 能 
在 这 些 国家 使 用 某 些 加 密 算 法 。TLS 可 以 在 连接 的 两 端 进行 初始 化 握手 通信 时 ， 在 进程 间 协 商 加 密 和 
认证 的 算法 。 因 此 可 能 出 现 通信 的 双方 因为 没有 足够 的 公共 算法 而 导致 连接 尝试 失败 。 

自 举 安全 通信 ”为 了 满足 安全 通信 的 要 求 而 不 需要 事先 协商 或 第 三 方 的 帮助 ， 可 以 用 与 前 面 提 过 
的 混合 方案 类 似 的 协议 建立 安全 通道 。 使 用 未 加 密 的 通信 进行 初始 化 交换 ， 然 后 使 用 公 钥 密码 ， 一 旦 
建立 共享 密 钥 ， 就 可 以 转换 到 密 钥 密码 学 上 来 。 每 个 转换 都 是 可 选 的 ， 都 通过 协商 进行 。 

因此 ， 安 全 通道 是 完全 可 配置 的 ， 它 允许 对 每 个 方向 上 的 通信 进行 加 密 和 认证 (但 是 不 要 求 这 么 
做 ) ， 这 使 得 计算 资源 不 必 因 为 执行 不 必要 的 加 密 操作 而 消耗 掉 。 

TLS 协议 的 细节 已 经 被 公布 并 标准 化 了 ， 一些 软件 库 和 工具 包 能 够 支持 它 【 Hirsch 1997, 
www. openssl. org] ， 其 中 一 些 是 在 公众 领域 里 。TLS 已 被 整合 到 许多 应 用 软件 中 ， 其 安全 性 也 经 过 独立 
审核 得 到 验证 。 

TLS 由 两 层 组 成 (参见 图 11-16) 。 一 层 是 TLS 记录 协议 层 ， 该 层 实 现 了 一 个 安全 通道 ， 用 来 加 密 
和 认证 通过 任何 面向 连接 的 协议 传输 的 消息 ; 另 一 1 有着 区 | Re | 
层 是 握手 层 ， 包 含 TLS 握手 协议 和 两 个 其 他 相关 协 ” ”协议 ”密码 规约 ”协议 
议 ， 它 在 客户 和 服务 器 之 间 建 立 并 维护 一 个 TLS 会 TLS 
话 〈 即 一 个 安全 通道 ) 。 这 两 层 通 常 都 是 用 客户 和 
服务 器 应 用 层 的 软件 库 实 现 的 。TLS 记录 协议 是 一 
个 会 话 层 协议 ， 可 以 用 来 在 保证 安全 性 、 完 整 性 和 | 
真实 性 的 前 提 下 在 进程 之 间 透 明 地 传送 应 用 层 数 
据 。 这 些 就 是 我 们 在 安全 模型 ( 见 2.4.3 节 ) 中 为 ”图 11-16 ere 
安全 通道 指定 的 性 质 ， 但 是 这 些 性 质 在 TLS 中 是 可 Hirsh. 1192; | 表 ， 

选 的 ， 通 信 各 方 可 以 选择 是 否 在 每 个 方向 上 都 部 署 Toe Pe EE 
消息 的 解密 和 认证 。 每 个 安全 会 话 被 赋予 一 个 标识 符 ， 通 信 各 方 可 以 在 缓存 中 存储 会 话 标识 符 以 备 以 
后 重用 ， 当 要 求 与 相同 的 一 方 进行 其 他 安全 会 话 时 ， 便 可 避免 建立 新 会 话 的 系统 开销 。 

TLS 被 广泛 用 于 在 现 有 应 用 层 协议 之 下 增加 一 个 安全 通信 层 。 它 最 常用 于 互联 网 商务 和 其 他 安全 
性 敏感 的 应 用 中 ， 以 保证 安全 的 HTTP 交互 。 几 乎 所 有 Web 浏览 器 和 Web 服务 器 都 实现 了 TLS: 它 通 
过 在 URL 中 使 用 协议 前 绥 https: ， 在 浏览 器 和 Web 服务 器 间 建 立 起 一 个 TLS 安全 通道 。 它 也 被 广泛 地 
部 署 以 提供 Telnet、FTP 和 许多 其 他 应 用 协议 的 安全 实现 。 对 于 那些 要 求 安全 通道 的 应 用 ，TLS 是 事实 
上 的 标准 ， 它 通过 提供 CORBA 和 Java 的 API， 为 商业 和 公共 领域 提供 了 多 种 可 用 的 实现 选择 。 

TLS 握手 协议 如 图 11-17 所 示 。 握 手 操作 是 在 一 个 已 建立 的 连接 上 进行 的 。 它 通过 交换 已 认可 的 选 
项 和 参数 来 建立 TLS 会 话 ， 这 些 选 项 和 参数 是 执行 加 密 和 认证 所 需要 的 。 握 手 序列 根据 是 否 需 要 客户 
和 服务 器 的 认证 而 变化 。 握 手 协议 也 可 以 在 之 后 改变 一 个 安全 通道 的 规约 时 调用 ， 例 如 ， 在 通信 开始 
时 可 能 只 用 消息 认证 码 来 认证 消息 。 在 这 之 后 可 以 使 用 加 密 。 这 是 通过 利用 现 有 的 通道 ， 再 次 执行 握 
手 协议 进行 协商 ， 从 而 获得 一 个 新 的 密码 规范 而 实现 的 。 

TLS 初始 化 握手 易 受到 11. 2. 2 节 场 景 3 所 述 的 “中 间 人 ”攻击 。 为 了 防止 这 种 情况 ， 用 来 验证 接 
收 到 的 第 一 个 证 书 的 公 钥 可 以 通过 一 个 单独 的 通道 传送 一 一 例如 ， 经 由 CD-ROM 交付 的 浏览 器 和 其 他 
互联 网 软件 可 以 包括 一 些 著名 的 证 书 权威 机 构 的 公 钥 。 另 一 个 众所周知 的 服务 的 客户 防范 措施 ， 是 基 
于 在 它 的 公 锁 证 书 中 包含 了 服务 的 域名 一 一 客户 只 能 用 和 域名 相 一 致 的 下 地 址 来 处 理 服务 。 
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TLS 支持 密码 函数 的 多 种 选项 。 它 们 统称 为 密码 组 (cipher suite ) 。 一 个 密码 组 为 图 11-18 所 示 的 


每 个 特性 包含 了 一 个 选项 。 





图 11-17 TLS 握手 协议 


建立 协议 版 本 、 会 话 ID、 密 码 
组 、 压 缩 方 法 、 交 换 随 机 值 





密 钥 交 换 方 法 ”用 来 交换 一 个 会 话 密 钥 的 方法 。 带 公 钥 证 书 的 RSA 


数据 传输 密码 ”用 于 数据 的 块 密码 或 流 密码 
消息 摘要 函数 ”用 于 创建 消息 认证 码 (MAC) 


IDEA 
SHA-1 





图 11-18 TLS 握手 配置 选项 


客户 和 服务 器 上 预 装 各 种 带 有 标准 标识 符 的 常用 密码 组 。 在 握手 时 ， 服 务 器 为 客户 提供 了 可 用 的 
密码 组 标识 符 清单 ， 客 户 选择 其 中 的 一 个 并 返回 。( 如 果 没 有 匹配 选项 ， 则 给 出 错误 指示 。) 在 这 个 阶 
段 ， 它 们 也 就 压缩 方法 〈 可 选 的 ) 和 CBC 块 加 密 函 数 〈 见 11.3 节 ) 的 随机 起 始 值 达成 一 致 。 

接 下 来 ， 通 信 双 方 按照 X 509 格式 交换 签名 的 公 锅 证 书 进行 互相 认证 。 这 些 证 书 可 能 是 从 一 个 公 
钥 权 威 机 构 获 得 的 ， 或 者 只 是 为 此 目的 临时 生成 的 。 在 任何 情况 下 ， 至 少 有 一 个 公 钥 必 须 是 在 握手 的 


下 一 个 阶段 可 用 的 。 


随后 通信 一 方 生成 一 个 控制 前 的 密 文 (pre-master secret) ， 用 公 钥 加 密 后 发 送 给 另 一 方 。 控 制 前 密 
文 是 一 个 大 随机 数 ， 通 信 双 方 都 使 用 这 个 数 生成 用 来 加 密 传 送 数据 的 两 个 会 话 密 钥 (RS A) 和 
用 来 认证 消息 的 消息 认证 密 文 。 当 这 些 工 作 完成 后 ， 一 个 安全 会 话 就 开始 了 。 这 是 由 通信 双方 交换 的 


改变 密码 规约 〈《ChangeCipherSpee) 消息 触发 的 。 随 
后 是 结束 〈Finished) 消息 。 一 旦 交换 了 Finished 消 
息 ， 所 有 后 续 的 通信 就 可 以 根据 所 选 的 密码 组 连同 
议定 的 密 钥 进行 加 密 和 签名 。 

图 11-19 显示 出 记录 协议 的 操作 。 一 个 要 传输 
的 消息 首先 被 分 割 成 便于 处 理 的 块 ， 然 后 有 选择 地 
压缩 这 些 块 。 严 格 来 说 ， 压 缩 并 不 是 安全 通信 的 一 
个 特性 ， 但 是 由 于 一 个 压缩 算法 可 以 参与 加 密 和 数 
字 签 名 算法 中 对 大 量 数据 的 处 理工 作 ， 因 此 在 这 里 
提供 了 压缩 选项 。 换 名 话说 ， 数 据 转换 管道 可 以 在 
TLS 记录 层 中 建立 ， 由 TLS 记录 层 执行 所 有 转换 ， 
这 种 转换 比 独立 转换 更 有 效 。 


应 用 数据 


记录 协议 单元 


压缩 后 的 单元 


MAC 


加 密 后 的 数据 


TCP 数 据 包 


abcdefghi 
分 段 /合并 


压缩 


散 列 





图 11-19 TLS 记录 协议 
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加 密 和 消息 认证 码 (MAC) 转换 部 署 了 经 协商 后 的 密码 组 中 指定 的 算法 ,如 11.3.1 节 和 11.4.2 
节 所 述 。 最 后 通过 相关 的 TCP 连接 ， 将 签名 和 加 密 后 的 数据 块 传送 给 另 一 方 ， 接 收 方 执行 逆向 转换 ， 
生成 原始 数据 块 。 

小 结 TLS 提供 了 一 个 实用 的 混合 加 密 方案 的 实现 ， 它 能 进行 认证 和 基于 公 铀 进行 密 钥 交换 。 因 
为 密码 在 握手 中 协商 ， 所 以 它 不 依赖 于 任何 专门 的 算法 ， 也 不 依赖 于 会 话 建立 时 的 任何 安全 服务 。 唯 
一 需要 的 是 权威 机 构 发 布 的 通信 双方 认可 的 公 钥 证 书 。 

由 于 作为 TLS 基础 的 SSL 协议 及 其 参考 实现 的 公布 [ www. mozilla. org] ， 它 逐渐 成 为 争论 的 主题 。 
早期 的 设计 已 经 有 了 一 些 修改 ， 作 为 一 种 有 价值 的 标准 ， 它 得 到 了 广泛 的 认可 。 现 在 TLS 已 经 被 集成 
到 大 多 数 Web 浏览 器 和 Web 服务 器 中 ， 也 被 应 用 于 诸如 安全 Telnet, FTP 等 其 他 应 用 中 。 商 业 和 公共 
领域 [ www. rsasecurity. com I, Hirsch 1997, www. openssl. org ] 实现 通常 以 程序 库 和 浏览 器 插件 的 形式 
供用 户 使 用 。 


11. 6.4 IEEE 802. 11 WiFi 安全 设计 中 最 初 的 缺陷 


3.5.2 节 描 述 的 面向 无 线 局 域 网 的 了 PEE 802. 11 标准 ， 于 1999 年 最 初 发 布 [IEEE 1999 ] 。 从 发 布 
之 日 起 ， 它 就 被 广泛 应 用 在 移动 通信 和 领域， 有 许多 基站 、 笔 记 本 电脑 和 便携 设备 都 实现 了 该 规约 。 遗 
憾 的 是 ， 人 们 不 久 就 发 现 了 这 个 标准 的 安全 设计 在 某 些 方面 有 严重 的 缺陷 。 我 们 将 简要 介绍 它 的 最 初 
设计 和 安全 缺陷 ， 并 以 此 作为 11. 1. 3 节 提 到 过 的 安全 设计 困难 的 一 个 实例 。 

大 家 认为 ， 无 线 网 络 比 有 线 网 络 更 容易 遭受 攻击 ， 因 为 网 络 和 传输 数据 很 容易 被 装备 有 同 频 收发 
器 的 设备 所 窃听 和 纂 改 。 最 初 的 802. 11 协议 用 于 为 WiFi 网 络 提供 访问 控制 ， 并 且 依 照 称 为 有 线 等 效 
加 密 (Wired Equivalent Privacy, WEP) 的 安全 规约 保证 传输 数据 的 私密 性 与 完整 性 。WEP 包含 下 面 几 
项 ， 网 络 管理 员 可 以 有 选择 地 激活 这 些 项 。 

访问 控制 : 通过 质询 -应 管 协议 进行 访问 控制 (cf. Kerberos, 11.6.2 节 ) ， 即 当 一 个 结 点 加 入 网 络 
时 ， 基 站 会 质询 该 结 点 是 否 有 正确 的 共享 密 钥 。 网 络 管理 员 会 指定 一 个 密 钥 K， 并 将 玉 在 基站 和 所 有 
已 认证 的 设备 之 间 共 享 。 

私密 性 与 完整 性 : 使 用 任 一 种 基于 RC4 流 密码 的 加 密 机 制 来 保证 私密 性 与 完整 性 。 加 密 过 程 中 使 
用 的 密 钥 与 访问 控制 中 使 用 的 密 钥 ， 都 为 K。 密 钥 长 度 可 以 是 40、64 或 128 比特 。 每 个 分 组 通过 包含 
加 密 校 验 和 来 保证 其 完整 性 。 

在 803. 11 标准 公布 不 久 ， 便 被 发 现 有 下 列 缺 陷 和 设计 弱点 。 

网 络 用 户 共享 单一 的 密 钥 是 设计 中 的 一 个 缺陷 ， 因 为 在 实践 中 会 有 下 面 的 问题 : 

一 密 钥 可 能 在 未 受 保护 的 信道 上 发 送 给 一 个 新 的 用 户 。 

一 一 个 粗心 的 或 是 恶意 的 用 户 〈 例 如 ， 心 怀 不 满 的 前 雇员 ) 拥有 访问 密 钥 的 权限 ， 他 们 会 破坏 整 

个 网 络 的 安全 性 ， 而 且 这 种 破坏 有 可 能 完全 不 被 发 觉 。 

解决 办 法 : TLS/SSL (511.634) 所 采用 的 一 种 基于 公 钥 的 协议 一 样 ， 通 过 协商 获得 私有 密 钥 。 

基站 是 不 需要 认证 的 ， 所 以 一 个 知道 当前 共享 密 铀 的 攻击 者 可 以 采取 欺骗 手 段 ， 锥 听 ， 添 加 或 段 
改 任何 消息 。 

解决 办 法 : 基站 应 当 提供 一 个 证 书 ， 它 可 以 通过 第 三 方 提供 的 公 钥 被 认证 。 

WEP 不 恰当 地 使 用 了 流 密码 ， 而 没有 使 用 块 密码 〈 见 11.3 节 对 流 密码 和 块 密码 的 描述 )。 
图 11-20 给 出 了 802. 11 WEP 安全 协议 下 的 加 密 和 解密 流程 。 每 个 分 组 都 通过 与 一 个 RC4 算法 产生 的 
密 钥 流 进 行 XOR 操作 来 加 密 。 接 收 站 利用 RC4 算法 产生 一 个 相同 的 密 钥 流 ， 并 通过 XOR 操作 对 每 一 
个 分 组 进行 解码 。 为 了 避免 密 钥 流 在 分 组 丢失 或 被 破坏 时 产生 同步 错误 ，RC4 算法 会 用 一 个 新 的 起 始 
值 重新 开始 ， 这 个 起 始 值 是 通过 在 全 局 共享 密 钥 后 面 连接 一 个 24 比特 的 初始 值得 到 的 。 这 个 初始 值 被 
更 新 并 被 包含 在 每 一 个 传输 分 组 中 。 共 享 密 钥 在 大 多 数 应 用 中 不 会 轻易 改变 ， 所 以 起 始 值 仅 有 S =2” 
( 约 107) 个 不 同 的 状态 。 因 此 ， 在 发 送 过 10' 个 分 组 后 就 会 产生 重复 的 起 始 值 以 及 密 钥 流 。 在 实际 系 
统 中 ,这 种 情况 在 几 个 小 时 内 就 会 发 生 ， 而 且 当 有 分 组 丢失 时 ,产生 重复 起 始 值 的 周期 会 更 短 。 攻 击 
者 从 截获 的 加 密 分 组 中 总 可 以 侦 测 出 重复 出 现 的 起 始 值 ， 因 为 这 些 起 始 值 显 式 地 包含 于 分 组 中 。 
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图 11-20 IEEE 802.11 WEP 中 使 用 的 RC4 流 加 密 


RC4 规范 中 对 密 钥 流 的 重复 问题 给 出 了 明确 的 警告 。 因 为 如 果 攻 击 者 截获 了 加 密 分 组 C;,， 并 且 知 
道明 文 已 (例如 ,通过 猜测 密 文 是 一 个 标准 的 服务 器 问讯 信息 ) 就 能 计算 出 用 于 加 密 分 组 的 密 钥 流 
Kio MK K, 值 在 S 个 分 组 之 后 又 会 重 现 ， 于 是 攻击 者 就 可 以 通过 已 知 的 天 来 解密 这 个 分 组 。 通 过 正 516] 
确 地 猜测 明文 分 组 ， 攻 击 者 最 终 可 以 解密 大 部 分 的 分 组 。Borisov 等 [2001] 首先 指出 了 这 个 安全 缺 
陷 ， 并 领导 了 对 WEP 安全 机 制 的 重新 评估 以 及 在 802. 11 的 更 新 版 本 中 使 用 的 新 的 安全 机 制 。 

解决 方法 : 根据 最 坏 情 况 下 密 钥 序列 重复 出 现时 间 ， 选 择 一 个 小 于 它 的 时 间 段 。 每 个 时 间 段 后 通 
过 协商 获得 新 的 密 钥 。 和 在 TLS 中 一 样 ， 这 个 过 程 需要 一 个 明确 的 中 止 代码 。 

正如 11. 5. 2 节 中 论 及 的 ， 由 于 美国 政府 严格 限制 出 口 设备 的 密 钥 长 度 最 多 为 40 比特 (后 改 为 64 
比特 ) ， 因 此 ，802. 11 标准 中 同时 引进 了 40 比特 和 64 比特 两 种 密 钥 长 度 。 但 40 比特 密 钥 很 容易 被 强 
行 攻击 破解 ， 因 此 40 比特 密 钥 提供 的 安全 保障 有 限 。 即 使 是 64 比特 的 密 钥 也 会 有 因 持 续 攻 击 而 被 破 
解 的 危险 。 

解决 方法 : 使 用 128 比特 密 钥 。 最 近 许 多 WiFi 产品 都 使 用 了 128 比特 密 钥 。 

FE 802. 11 标准 公布 后 ， 就 发 现 RC4 流 密码 即使 在 密 钥 流 没有 出 现 重 复 的 情况 下 ， 通 过 观察 大 量 的 
数据 流 也 可 能 泄漏 密 钥 [Fluhrer et al. 2001] 。 这 个 缺陷 已 经 在 实践 中 被 证 明 ， 这 个 缺陷 说 明 即 使 使 用 
128 比特 的 密 钥 ，WEP 方案 也 并 不 安全 ， 有 些 公司 也 因此 限制 他 们 的 雇员 使 用 WiFi 网 络 。 

解决 方法 : 采用 类 似 TLS 的 办 法 ， 提 供 一 种 协商 机 制 来 决定 选择 何 种 密码 规约 以 及 加 密 算法 。 
RC4 算法 是 被 紧 紧 绑 定 在 WEP 标准 中 的 ， 它 不 提供 选择 其 他 加 密 算法 的 协商 机 制 。 

用 户 通常 不 会 部 署 WEP 提供 的 保护 机 制 ， 其 原因 可 能 是 用 户 没 有 意识 到 他 们 的 数据 是 暴露 的 。 这 
并 不 是 标准 设计 时 的 缺陷 ， 而 是 产品 所 基于 的 市 场 造成 的 。 大 多 数 产品 的 初始 设置 都 会 关闭 安全 功能 ， 
而 且 与 安全 风险 相关 的 文档 常常 不 足 。 

解决 方法 : 提供 更 好 的 默认 设置 和 文档 。 但 是 用 户 往往 更 注重 获得 更 好 的 性 能 ， 而 当 硬 件 可 用 的 
情况 下 ， 开 启 加 密 功 能 会 明显 减 慢 通信 的 速度 。 用 户 避 免 使 用 WEP 加 密 功能 的 需求 导致 基站 需要 增加 
新 的 特性 ， 即 基站 不 可 以 像 平 常 那样 将 含有 识别 信息 的 分 组 广播 出 去 ， 并 且 拒 绝 从 未 经 认证 的 MAC 地 
址 ( 见 3.5.1 节 ) 发 来 的 分 组 。 但 上 述 措施 也 不 足以 提供 足够 的 安全 保障 ， 因 为 网 络 中 的 分 组 容易 被 
截获 〈“ 嗅 探 " ) ， 而 且 可 以 通过 修改 操作 系统 轻易 地 篡改 MAC 地 址 。 

IEEE 专门 成 立 了 一 个 任务 组 来 建立 一 个 对 现 有 安全 解决 方法 的 替代 方法 ， 即 一 个 全 新 的 安全 协 
W, WiFi 保护 访问 协议 (WiFi Protected Access，WPA)。 这 个 协议 在 IEEE 802. 11i 草案 [IEEE 2004b， 
Edney and Arbaugh 2003] 中 有 详细 说 明 ， 并 在 2003 年 的 中 期 出 现 于 产品 之 中 。IEEE 802. 11i (也 称 为 
WPA2) 在 2004 年 的 6 月 被 正式 批准 ， 它 使 用 AES 加 密 而 不 是 RC4。WEP 中 使 用 RC4。IEEE 802. 11 
随后 的 开发 兼容 WAP2。 517 


11.7 ”小结 


分 布 式 系统 常常 面临 安全 威胁 。 保 护 通信 通道 和 可 能 成 为 攻击 目标 的 用 于 信息 处 理 的 系统 的 接口 
是 非常 重要 的 。 个 人 电子 邮件 、 电 子 商 务 和 其 他 金融 交易 都 是 这 样 的 信息 。 要 小 心地 设计 安全 协议 以 
防止 出 现 漏洞 。 安 全 系统 的 设计 从 一 系列 威胁 和 一 组 最 坏 情 况 的 假设 开始 。 


519 


304 - 第 11 章 安全 性 


安全 机 制 基于 公 钥 密码 学 和 密 铀 密码 学 。 密 码 算法 以 某 种 方式 搅乱 原 有 的 消息 ， 在 不 知道 解密 密 钥 
的 情况 下 不 可 能 对 密 文 解密 。 密 钥 密 码 学 是 对 称 的 ， 即 加 密 和 解密 使 用 相同 的 密 钥 。 如 果 通 信 双 方 共享 
一 个 密 钥 ， 那 么 他 们 可 以 交换 加 密 后 的 信息 ， 而 不 存在 被 窃听 和 签 改 的 风险 ， 并 且 能 保证 信息 的 真实 性 。 

公 钥 密码 学 是 非 对称 的 ， 即 加 密 和 解密 使 用 不 同 的 密 钥 ， 只 知道 其 中 一 个 密 钥 不 会 泄露 另 一 个 密 
钥 。 一 个 密 钥 是 公开 的 ， 任 何人 可 以 发 送 安全 消息 给 相应 的 私 钥 持 有 者 ， 允 许 私 钥 持 有 者 对 消息 和 证 
书 进行 签名 。 证 书 可 以 作为 使 用 被 保护 的 资源 的 凭证 。 

资源 通过 访问 控制 机 制 得 到 保护 。 访 问 控制 方案 把 权限 分 派 给 持 有 凭证 的 主体 ， 使 之 能 对 分 布 式 
对 象 和 对 象 集合 执行 操作 。 权 限 可 以 保存 在 与 对 象 集合 相关 联 的 访问 控制 列表 里 (ACL), RA h E 
以 权能 的 形式 持 有 ， 权 能 是 不 可 伪造 的 访问 资源 集合 的 密 钥 。 使 用 权能 对 于 授予 访问 权限 来 说 十 分 便 
利 ， 但 是 很 难 收回 。 对 ACL 的 改变 能 即刻 生效 ， 能 收回 以 前 的 访问 权限 ， 但 是 对 于 ACL 的 管理 比 对 权 
能 的 管理 复杂 得 多 ， 也 昂贵 得 多 。 

直到 最 近 ，DES 加 密 算法 才 成 为 最 为 广泛 使 用 的 对 称 加 密 方案 , 但 是 56 比特 的 密 钥 长 度 不 足以 防 
止 强行 攻击 。DES 的 第 3 版 实现 了 112 比特 密 钥 ,该 长 度 是 安全 的 ， 但 其 他 的 算法 (例如 IDEA 和 
AES) 的 运行 速度 更 快 而 且 提 供 了 更 高 的 安全 性 。 

RSA 是 使 用 最 为 广泛 的 非 对 称 加 密 方 案 。 为 了 防范 因数 分 解 攻击 ， 它 应 该 使 用 768 比特 或 更 长 的 
密 钥 。 密 钥 〈 对 称 ) 算法 比 公 钥 〈 非 对 称 ) 算法 性 能 优越 好 几 个 数量 级 ， 因 此 公 钥 算法 一 般 只 用 于 混 
合 协 议 (如 TLS) 中 ， 例 如 在 TLS 中 建立 安全 通道 后 ， 就 可 以 使 用 共享 密 钥 进行 后 续 的 交换 。 

Needham- Schroeder 认证 协议 是 第 一 个 通用 的 、 实 用 的 安全 协议 ， 它 为 许多 实际 的 系统 奠定 了 基 
Titi, Kerberos 是 一 个 设计 优良 的 用 于 在 单个 组 织 中 进行 用 户 认证 和 服务 保护 的 方案 。Kerberos 基于 
Needham- Schroeder 协议 和 对 称 密码 学 。TLS 是 广泛 运用 于 电子 商务 中 的 安全 协议 。 它 是 个 灵活 的 协议 ， 
用 于 建立 和 使 用 基于 对 称 密 码 学 和 非 对 称 密码 学 的 安全 通道 。 有 关 EEE 802. 11 WiFi 安全 协议 的 缺陷 
的 讨论 ， 使 我 们 对 安全 设计 中 可 能 遇 到 的 困难 有 了 客观 的 认识 。 


练习 


11.1 描述 你 所 在 机 构 的 一 些 物 理 安全 策略 ， 参 照 一 个 计算 机 化 的 门 锁 系 统 中 实现 的 方式 来 表达 。 
(第 464 页 ) 
11.2 举例 说 明 传统 的 电子 邮件 易 受 到 窃听 、 伪 装 、 纂 改 、 重 播 以 及 拒绝 服务 攻击 的 情形 。 针 对 每 种 攻击 
形式 电子 邮件 应 如 何 采取 相应 的 保护 措施 提出 建议 。 (第 466 页 ) 
1.3 公 钥 的 初始 交换 易 受 到 中 间 人 攻击 。 尽 可 能 多 地 描述 相应 的 防范 措施 。 (第 473 页 , 第 511 页 ) 
11.4 PCP 通常 被 应 用 于 安全 电子 邮件 通信 。 在 保证 私密 性 和 真实 性 的 前 提 下 ， 描 述 两 个 用 户 交换 电子 邮 
件 消息 前 ,使 用 PGP 的 步骤 。 在 哪些 范围 内 要 使 初始 密 钥 协商 对 用 户 不 可 见 ? (PGP 协商 是 混合 方 


案 的 一 个 实例 ) 。 (第 493 页 ,第 502 页 ) 
11.5 如何 使 用 POP 或 其 他 类 似 的 方案 把 电子 邮件 发 送 给 一 个 大 的 接收 者 列表 。 当 这 个 列表 被 频繁 使 用 
时 ， 试 提出 一 个 更 为 简单 快速 的 方案 。 (第 502 HK, 4.4 节 ) 


11.6 图 11-7 ~ 图 11-9 中 给 出 的 TEA 对 称 加 密 算法 的 实现 不 可 在 所 有 的 机 器 间 移 植 ， 试 解释 原因 。 如 何 使 
一 个 用 TEA 算法 实现 加 密 的 消息 被 传送 ， 并 正确 地 在 所 有 其 他 的 体系 结构 中 进行 解密 ? (第 488 页 ) 
11.7 修改 图 11-9 中 的 TEA 应 用 程序 以 使 用 密码 块 链接 (CBC). (第 485 TL, 第 488 页 ) 
11.8 根据 图 11-9 中 程序 ,构建 一 个 流 密码 的 应 用 程序 。 (第 486 页 , 第 488 页 ) 
11.9 试 估 计 使 用 一 个 2000 MIPS (每 秒 兆 指 令 ) 的 工作 站 ， 通 过 强行 攻击 破解 一 个 56 比特 DES 密 钥 需 要 
的 时 间 ， 已 知 强行 攻击 程序 的 内 循环 对 于 每 个 密 钥 值 需要 10 个 指令 ， 再 加 上 加 密 一 个 8 比特 明文 的 
ANT TH] (PR 11-13) 。 对 于 一 个 128 比特 IDEA 密 钥 进行 同样 的 计算 。 推 测 如 果 使 用 一 个 200 000 MIPS 


的 并 行 处 理 器 〈 或 是 一 个 具有 相同 处 理 能 力 的 互联 网 社团 ) 所 需 的 破解 时 间 。 (第 489 页 ) 
11.10 在 带 有 和 密 钥 的 Needhan-Shroeder 认证 协议 中 ， 试 解释 为 什么 下 面 的 消息 5 的 版 本 是 不 安全 的 : 
A—> Bit Na} iksi (3% 504 页 ) 


11.11 回顾 在 讨论 802. 11 WEP 协议 设计 时 的 解决 办 法 ， 大 致 给 出 每 种 解决 办 法 的 实现 方法 ， 以 及 缺 
陷 和 过 到 的 困难 (5 个 答案 ) 。 (第 515 页 ) 
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分 布 式 文件 系统 


分 布 式 文件 系统 使 程序 可 以 像 对 本 地 文件 那样 对 远程 文件 进行 存储 和 访问 ， 人 允许 用 户 访问 网 络 中 
的 任意 计算 机 上 的 文件 。 访 问 存 储 在 服务 器 上 的 文件 时 应 该 能 获得 与 访问 本 地 磁盘 文件 类 似 的 性 能 和 
可 靠 性 。 

在 本 章 中 ,我 们 将 给 出 文件 系统 的 一 个 简单 体系 结构 ， 并 且 介 绍 两 种 已 被 广泛 使 用 20 多 年 的 分 布 
式 文件 系统 : 

© Sun 网 络 文件 系统 (NFS) 

e Andrew 文件 系统 (AFS) 

这 两 个 实例 都 模拟 了 UNIX 文件 系统 接口 ， 但 它们 具有 不 同 的 可 扩展 性 和 容错 能 力 ， 以 及 同 UNIX 
中 的 单 拷贝 文件 修改 语义 的 差异 程度 。 

我 们 还 将 回顾 一 些 相关 的 文件 系统 ， 它 们 采用 了 新 的 磁盘 数据 组 织 模式 、 高 性 能 的 多 服务 器 访问 、 
容错 和 可 伸缩 性 的 文件 系统 。 书 中 的 其 他 地 方 还 将 介绍 其 他 类 型 的 分 布 式 存储 系统 ， 其 中 包括 点 对 点 
存储 系统 (第 10 章 ) 、 复 制 文件 系统 (第 18 章 ) 和 多 媒体 数据 服务 器 (第 20 章 ) ， 支 持 互 联网 搜索 
和 其 他 大 规模 密集 型 数据 访问 要 求 的 存储 服务 的 特殊 形式 在 第 21 章 中 会 提 到 。 


12.1 简介 


在 第 1 章 和 第 2 章 中 ， 我 们 已 经 说 明 共享 资源 是 分 布 式 系统 的 主要 目标 。 共 享 存储 信息 可 能 是 分 
布 式 资源 共享 的 一 个 最 重要 的 方面 。 共 享 数 据 机 制 有 许多 种 形式 ， 我 们 将 在 本 书 中 的 相关 部 分 分 别 介 
绍 。Web 服务 器 提供 了 一 种 严格 的 数据 共享 ， 其 中 客户 可 以 通过 互联 网 访问 存储 在 服务 器 本 地 的 文件 。 
但 是 ， 通 过 Web 服务 器 获得 的 数据 是 由 服务 器 端 或 分 布 于 本 地 网 中 的 文件 系统 来 管理 和 更 新 的 。 大 规 
模 广 域 可 读 写 文件 存储 系统 会 产生 负载 平衡 、 可 靠 性 、 可 用 性 和 安全 性 问题 ,将 在 第 10 章 介绍 的 对 等 
网 络 文件 存储 系统 的 目标 就 是 解决 这 些 问题 。 第 18 章 将 重点 讨论 复制 存储 系统 ， 它 适合 于 需要 对 存储 
在 系统 上 的 数据 进行 可 靠 访 问 的 应 用 ， 而 系统 中 单独 的 主机 不 能 保证 可 用 性 。 在 第 20 章 中 ， 我 们 将 介 
绍 一 种 媒体 服务 器 ， 它 用 来 满足 大 量 用 户 实时 的 视频 数据 流传 输 。 在 第 21 章 中 ， 我 们 将 介绍 一 个 为 支 
持 像 互联 网 搜索 这 样 的 大 规模 密集 型 数据 的 文件 系统 。 

局 域 网 和 企业 内 部 网 中 的 共享 需求 产生 了 一 种 不 同类 型 的 服务 ， 它 能 够 为 客户 端 提 供 各 种 类 型 的 
程序 和 数据 的 存储 持久 性 ， 以 及 更 新 数据 的 分 布 一 致 性 。 本 章 的 主要 目的 是 讨论 基本 分 布 式 文件 系统 
的 体系 结构 和 实现 。 我 们 在 这 里 使 用 的 “基本 ”一 词 ， 表 示 分 布 式 文件 系统 的 主要 目的 是 在 多 个 远程 
计算 机 系统 上 为 客户 模拟 非 分 布 式 文件 系统 的 功能 。 它 并 不 维持 一 个 文件 的 多 个 持久 副本 ， 也 不 提供 
多 媒体 数据 流 所 需 的 宽带 和 实时 保证 一 一 这 些 需求 会 在 后 面 的 章节 中 讨论 。 基 本 分 布 式 文件 系统 为 企 
业内 部 网 上 的 有 组 织 计 算 提 供 了 必要 支持 。 

文件 系统 最 初 是 为 集中 式 计算 机 系统 和 人 台式 机 开发 的 ， 它 作为 一 种 操作 系统 设施 提供 方便 的 磁盘 
存储 的 程序 接口 。 后 来 ， 它 们 加 入 了 访问 控制 和 文件 锁 机 制 以 实现 数据 和 程序 的 共享 。 在 企业 内 部 网 
中 ， 分 布 式 文件 系统 以 文件 形式 支持 信息 共享 ， 并 以 持久 存储 的 形式 支持 硬件 资源 共享 等 。 一 个 设计 
良好 的 文件 服务 提供 与 访问 局 域 文 件 性 能 和 可 靠 性 相似 甚至 更 好 的 分 布 式 文件 访问 。 它 们 的 设计 能 适 
应 局 域 网 的 性 能 和 可 靠 性 特点 ， 因 此 它们 能 提供 在 企业 内 部 网 中 使 用 的 更 有 效 的 共享 永久 存储 。 在 20 
世纪 70 年代， 研究 者 开发 出 第 一 个 文件 服务 器 [ Birrell and Needham 1980, Mitchell and Dion 1982, 
Leach et al. 1983], 7£20 世纪 80 年 代 早期 ，Sun 的 网 络 文件 系统 [Sandberg et al. 1985, Callaghan 1999 | 
也 开始 被 使 用 了 。 

分 布 式 文件 系统 的 文件 服务 允许 用 户 在 企业 内 部 网 上 的 任 一 计算 机 上 访问 自己 的 文件 ， 程 序 可 以 
像 对 待 本 地 文件 一 样 存储 和 访问 远程 文件 。 在 几 台 服务 器 上 集中 存储 文件 可 以 减少 本 地 磁盘 存储 ， 更 
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重要 的 是 可 以 使 对 组 织 机 构 拥 有 的 持久 数据 的 归档 和 管理 更 有 效率 。 对 于 名 字 服 务 、 用 户 认证 服务 和 
打印 服务 等 其 他 服务 ， 当 它们 可 以 调用 文件 服务 满足 它们 的 持久 存储 需求 时 ， 它 们 可 以 更 容易 实现 。 
Web 服务 器 依赖 于 文件 系统 来 存储 其 网 页 。 在 一 个 可 以 操纵 Web 服务 器 通过 企业 内 部 网 进行 外 部 和 内 
部 访问 的 机 构 中 ， 而 Web 服务 器 经 常 从 本 地 分 布 式 文件 系统 中 获取 和 存储 数据 。 

随 着 分 布 式 面向 对 象 编程 的 出 现 ， 用 户 需 要 系统 提供 对 共享 对 象 的 永久 存储 和 分 布 。 一 种 实现 方 
法 是 序列 化 对 象 〈 按 4. 3. 2 节 描 述 的 方式 ) ， 并 使 用 文件 存储 和 检索 序列 化 对 象 。 但 对 于 快速 变化 的 对 
象 来 说 ， 这 种 获得 持久 性 和 分 布 性 的 方法 是 不 可 行 的 ， 因 此 研究 者 开发 出 一 些 更 直接 的 方法 。Java 的 
远程 对 象 调用 和 CORBA 的 ORB 提供 了 访问 远程 共享 对 象 的 方式 ， 但 它们 都 不 能 保证 对 象 的 持久 性 ， 
也 不 保证 对 分 布 式 对 象 的 复制 。 

图 12-1 概述 了 不 同类 型 的 存储 系统 。 除 了 已 经 提 到 的 存储 系统 外 ， 表 中 还 包括 了 分 布 式 共享 内 存 
(DSM) 系统 和 持久 对 象 存储 ， 第 6 章 将 详细 介绍 DSM, DSM 通过 在 每 一 个 主机 上 复制 内 存 页 或 内 存 
B, 实现 了 对 共享 内 存 的 模拟 。 它 不 一 定 要 提供 自动 持久 性 。 持 久 对 和 象 存储 已 在 第 5 章 介绍 过 了 ， 其 
目标 是 为 分 布 式 共享 状态 提供 持久 性 。 此 类 例子 有 CORBA 的 持久 状态 服务 〈 见 第 8 章 ) 和 Java 的 持 
久 性 扩充 [Jordan 1996 java. sun. com VII] 。 一 些 研究 项 目 已 经 开发 出 了 支持 自动 复制 和 对 象 持久 存储 
的 平台 (例如 ，PerDis [Ferreira et al. 2000] 和 Khazana [Carter et al. 1998] ) 。 点 对 点 存储 系统 提供 了 
更 大 的 伸缩 性 ， 以 支持 比 本 章 介绍 的 系统 大 很 多 的 客户 负载 。 但 是 ， 它 们 为 了 提供 安全 访问 控制 和 可 
更 新 副本 间 的 一 致 性 而 付出 了 高 额 的 性 能 代价 。 














| ” 分 布 式 AP 例子 
持久 性 BEK 一 至 性 
主 存 x x x 1 RAM 
文件 系统 x M x 1 UNIX 文 件 系 统 
分 布 式 文件 系统 V vV vV Vv Sun NFS 
Web vV vV vV x Web 服 务 器 
分 布 式 共享 内 存 Vv x v vV Ivy (DSM, 6%) 
远程 对 象 (RMI/ORB) Vv x x 1 CORBA 
持久 对 象 存储 vV vV x 1 CORBA 持 久 状 态 服务 
持久 分 布 式 对 象 存储 v vV v 2 OceanStore 〈 第 10 章 ) 
一 致 性 类 型 一 一 1， 严格 的 单 份 复制 ; W: 弱 保 证 ; 2: 非常 能 的 保证 。 


图 12-1 存储 系统 以 及 它们 的 性 质 


其 中 ， 一 致 性 这 一 列表 示 当 数据 进行 更 新 时 是 否 有 一 种 机 制 来 维护 其 数据 的 多 个 拷贝 之 间 的 一 至 
性 。 实 际 上 ， 所 有 存储 系统 都 使 用 缓存 来 优化 程序 的 性 能 ， 缓 存 首先 应 用 到 主 存 和 非 分 布 式 系统 ， 对 
它们 而 言 ， 一 致 性 是 严格 的 〈 在 图 12-1 中 用 “1” 表示 一 个 拷贝 的 一 致 性 ) 一 一 在 更 新 后 ， 程 序 不 能 
发 现存 储 数据 与 其 缓存 拷贝 之 间 的 任何 区 别 。 使 用 分 布 式 副本 时 ， 很 难 达 到 严格 的 一 致 性 。 像 Sun 
NFS 和 Andrew 文件 系统 这 样 的 分 布 式 文件 系统 会 将 客户 机 的 一 部 分 文件 副本 缓存 起 来 ， 并 且 采 用 一 种 
特定 的 一 致 性 机 制 来 维持 近似 的 一 致 性 。 这 在 图 12-1 的 “一 致 性 ” 列 中 用 “V ”来 表示 一 一 我 们 将 
在 12.3 节 和 12. 4 节 讨 论 这 些 机 制 和 它们 与 严格 一 致 性 的 偏离 程度 。 

Web 使 用 客户 机 上 的 缓存 和 由 用 户 组织 维 护 的 代理 服务 器 上 的 缓存 。 在 Web 代理 和 客户 机 缓存 上 
的 拷贝 和 原 服务 器 中 数据 的 一 致 性 只 能 由 用 户 行为 来 维持 。 当 原 服务 器 中 的 网 页 更 新 时 并 不 通知 客户 ; 
他 们 必须 进行 检查 才能 保持 他 们 的 本 地 拷贝 为 最 新 版 本 。 在 网 页 浏览 中 ， 这 就 能 够 满足 要 求 了 ， 但 它 
不 能 支持 像 共享 分 布 式 白板 这 样 的 协作 式 应 用 程序 的 开发 。DSM 系统 使 用 的 一 致 性 机 制 在 提供 这 本 书 
的 网 站 [www. cdk5. net] 上 有 所 介绍 。 不 同 的 持久 对 象 系统 使 用 缓存 和 一 致 性 的 方法 的 差别 相当 大 。 
CORBA 和 持久 化 Java 方案 只 维护 持久 对 象 的 单一 拷贝 访问 这 些 对 象 需要 使 用 远程 调用 ， 所 以 唯一 的 
-一致 性 问题 是 内 存活 动 拷贝 和 磁盘 上 对 象 的 持久 拷贝 之 间 的 一 致 性 ， 这 对 远程 用 户 是 不 可 见 的。 前 面 
提 到 的 PerDiS 和 Khazana 项 目 维护 缓存 的 对 象 副本 ， 并 采用 了 相当 完备 的 一 致 性 机 制 来 产生 与 DSM 系 
统 中 相似 的 一 致 性 形式 。 
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在 讨论 了 与 持久 和 非 持久 数据 的 存储 及 分 布 相 关 的 问题 之 后 ， 我 们 现在 回 到 本 章 的 主题 一 一 基本 
分 布 式 文件 系统 的 设计 。 我 们 将 在 12. 1. 1 节 介 绍 ( 非 分 布 式 的 ) 文件 系统 的 相关 特性 ,在 12. 1.2 节 
介绍 分 布 式 文件 系统 的 需求 ， 在 12.1.3 节 介 绍 贯 穿 本 章 的 实例 。 在 12. 2 节 中 ， 我 们 将 定义 基本 分 布 ”[524 
式 文件 服务 的 抽象 模型 ， 其 中 包括 程序 的 接口 集 。12. 3 节 将 介绍 Sun NFS 系统 ， 它 具有 抽象 模型 的 许 
多 特征 。 在 12.4 节 中 ， 我 们 将 描述 Andrew 文件 系统 一 一 它 是 一 种 被 广泛 使 用 的 系统 ， 采 用 了 完全 不 
同 的 缓存 和 一 致 性 机 制 。12. 5 节 将 回顾 在 文件 服务 设计 领域 的 最 近 的 进展 。 

本 章 所 描述 的 系统 并 没有 包括 分 布 式 文件 和 数据 管理 系统 的 所 有 情形 。 本 书后 面 的 章 将 会 介绍 几 
个 更 先进 的 系统 。 第 18 章 将 介绍 Coda 系统 ， 它 是 一 种 分 布 式 文件 系统 ， 为 了 维持 其 可 靠 性 、 可 用 性 
和 断 链 工作 ， 它 维护 文件 的 多 个 持久 拷贝 。 在 第 18 章 还 将 介绍 一 种 分 布 式 数据 管理 系统 Bayou， 它 为 
了 实现 高 可 靠 性 ， 提 供 了 副本 的 弱 一 致 性 形式 。 第 21 章 将 介绍 Google LERA (GFS) 为 支持 大 规 
. 模 、 数 据 密集 型 应 用 (包括 互联 网 搜索 ) 而 专门 设计 的 文件 系统 。 


12.1.1 文件 系统 的 特点 


文件 系统 负责 文件 的 组 织 、 存 储 、 检 索 、 命 名 、 共 享 和 保护 。 它 提供 了 描述 文件 抽象 的 程序 接 
口 ， 这 样 程序 员 就 不 必 关 心 存储 分 配 以 及 存储 布局 的 细节 。 文 件 存 储 在 磁盘 或 其 他 稳定 的 存储 介 
质 上 。 

文件 包括 数据 和 属性 。 其 中 ， 数 据 部 分 包括 一 系列 的 数据 项 〈 通 常 是 8 位 字 节 ) ， 读 和 写 操 作 可 访 
问 这 些 数 据 项 的 任何 部 分 。 属 性 部 分 用 一 个 记录 表示 ， 其 中 包括 文件 长 度 、 时 间 惟 、 文 件 类 型 、 拥 有 
者 身份 和 访问 控制 列表 等 信息 。 图 12-3 描述 了 一 个 典型 的 属性 记录 结构 。 其 中 带 阴 影 的 属性 是 由 文件 
系统 管理 的 ， 用 户 程序 不 能 更 新 它 。 

文件 系统 用 来 存储 和 管理 大 量 的 文件 ， 它 具有 创建 、 命 名 和 删除 文件 的 功能 。 应 用 目录 系统 可 以 
为 文件 命名 提供 帮助 。 目 录 通 常 是 一 种 特殊 类 型 的 文件 ， 它 提供 从 文本 名 字 到 内 部 文件 标识 符 的 映射 。 
目录 可 以 包括 其 他 目录 的 名 字 ， 这 样 就 形成 了 一 种 层次 化 的 文件 命名 方案 ，UNIX 和 其 他 一 些 操作 系统 
使 用 的 是 多 部 分 组 成 的 路 径 名 。 文 件 系统 还 负责 控制 对 文件 的 访问 ， 并 根据 用 户 授权 和 其 请 求 的 访问 
类 型 ( 读 、 更 新 、 执 行 及 其 他 操作 ) 限制 对 文件 的 访问 。 

元 数据 这 一 术语 是 指 文件 系统 用 于 管理 文件 而 存储 的 所 有 额外 信息 。 它 包括 文件 属性 ， 目 录 和 其 
他 文件 系统 使 用 的 持久 信息 。 

图 12-2 给 出 了 传统 操作 系统 中 非 分 布 式 文件 系统 的 实现 所 具有 的 一 个 典型 的 层次 模块 结构 。 每 一 
层 只 依赖 其 下 面 一 层 。 分 布 式 文件 服务 的 实现 需要 图 中 所 示 的 所 有 部 件 ， 可 能 需要 附加 组 件 来 处 理 客 
P - 服务 器 通信 、 分 布 式 命名 以 及 文件 定位 。 
































文件 长 度 

目 FRH: 将 文件 名 和 文件 ID 关联 创建 时 间 惟 

文件 模块 : 将 文件 ID 和 特定 文件 关联 读 时 间 稚 

访问 控制 模块 : 检查 操作 请 求 是 否 许可 papal 

文件 访问 模块 : 读 或 写 文件 数据 或 属性 引用 计数 

块 模块: 访问 和 分 本 磁盘 haa 

设备 模块 : 磁盘 I/O 和 缓冲 访问 控制 列表 

图 12-2 文件 系统 模块 图 12-3 文件 属性 记录 结构 525 


文件 系统 操作 ”图 12-4 总 结 了 在 UNIX 系统 中 应 用 程序 可 用 的 主要 的 文件 操作 。 这 些 是 由 内 核 
实现 的 系统 调用 ， 应 用 程序 员 通 常 通过 像 C 标准 输入 /输出 库 或 Java 文件 类 这 样 的 库 进 程 来 访问 这 些 
操作 。 这 里 我 们 给 出 的 原 语 暗示 了 文件 服务 希望 支持 的 操作 ， 并 用 于 与 下 面 介绍 的 文件 服务 接口 相 
比较 。 


308 + 第 12 章 分 布 式 文件 系统 


filedes = open (name,mode) 打开 一 个 名 字 为 name 的 已 存在 文件 
filedes = creat (name,mode) 用 给 定名 name 创 建 一 个 新 文件 


以 上 两 个 操作 都 给 出 打开 文件 的 文件 描述 符 。 其 中 ，mode 包 括 read、 
write 之 一 或 read、write 二 者 兼 有 


status = close (filedes) 关闭 已 打开 的 filedes 文 件 
count = read (filedes,buffer,n) 从 被 filedes 引 用 的 文件 中 传输 n 字 节 给 buffer 
count = write (filedes,buffer,n) 从 buffer 传 输 n 字 节 给 被 fledes 引 用 的 文件 


以 上 两 个 操作 都 会 返回 实际 的 传输 字 节 数 并 移动 读 写 指针 
pos = lseek (filedes,offset, whence ) 将 读 写 指针 移动 指定 的 位 移 〈 根 据 whence 决 定 是 相对 位 移 还 是 绝对 位 移 ) 








status = unlink (name) 从 目录 结构 中 删除 文件 name， 如 果 此 文件 没有 其 他 名 字 ， 它 就 被 删除 
status = link (namel,name2) 为 文件 (namel) 添加 新 的 名 字 Cname 2) 
| status = stat (name,buffer) 获得 文件 name 的 文件 属性 ， 并 将 其 放 入 buffer 中 








图 12-4 UNIX 文件 系统 操作 


UNIX 操作 基于 一 个 程序 模型 ， 在 这 个 程序 模型 中 ， 对 每 个 运行 的 程序 ， 文 件 状态 信息 是 被 存储 在 
文件 系统 中 的 。 它 包含 一 系列 当前 打开 的 文件 ， 在 每 个 文件 上 有 一 个 读 - 写 指针 ， 它 用 于 为 下 一 次 读 
或 写 操 作 指 示 文 件 位 置 。 
文件 系统 还 负责 文件 的 访问 控制 。 在 UNIX 这 样 的 本 地 文件 系统 中 ， 当 文件 被 打开 时 ， 系 统 就 会 
进行 访问 控制 。 它 在 访问 控制 表 中 检查 用 户 的 权限 ， 并 将 权限 与 在 open 系统 调用 中 请 求 访问 的 模式 做 
比较 。 如 果 权 限 与 其 模式 匹配 ， 文 件 就 被 打开 ， 同 时 该 模式 被 记录 在 打开 文件 的 状态 信息 中 。 


12.1.2 分 布 式 文件 系统 的 需求 


在 分 布 式 文件 系统 的 早期 开发 过 程 中 ,发现 了 许多 分 布 式 服务 设计 的 需求 和 潜在 的 缺陷 。 最 初 ， 
分 布 式 文件 系统 只 提供 访问 透明 性 和 位 置 透明 性 ， 然 而 在 后 续 的 开发 过 程 中 ， 出 现 了 性 能 、 可 伸缩 性 、 
并 发 控制 、 容 错 和 安全 和 需求， 并且 这 些 需 求 在 开发 中 都 得 到 了 满足 。 我 们 将 在 后 面 的 小 节 中 讨论 这 些 
需求 以 及 相关 的 需求 。 

透明 性 ”在 企业 内 部 网 上 ， 文 件 服务 通常 都 是 负载 最 重 的 服务 ， 因 此 它 的 功能 和 性 能 非常 关 
键 。 文 件 服务 的 设计 应 该 满足 1. 5. 7 节 定 义 的 分 布 式 系 统 的 透明 性 需求 ， 其 设计 还 必须 平衡 灵活 
性 、 可 伸缩 性 、 软 件 的 复杂 性 和 性 能 之 间 的 关系 。 下 列 透 明 性 是 当前 文件 服务 能 够 部 分 解决 或 完 
全 解决 的 。 

访问 透明 性 : 客户 程序 应 该 不 了 解 文件 的 分 布 性 。 用 户 通 过 一 组 文件 操作 来 访问 本 地 或 远程 文件 。 
操作 本 地 文件 的 程序 在 不 做 修改 的 情况 下 也 应 该 能 访问 远程 文件 。 

位 置 透明 性 : 客户 程序 应 该 使 用 单一 的 文件 命名 空间 。 在 不 改变 路 径 名 的 情况 下 ， 多 个 文件 或 文 
件 组 应 该 可 以 被 重 定位 ， 同 时 用 户 程序 在 任 一 时 刻 执 行 时 都 使 用 同样 的 名 字 空 间 。 

移动 透明 性 : 当 文件 被 移动 时 ， 客 户 程序 和 客户 结 点 上 的 系统 管理 表 都 不 必 进 行 修改 。 它 们 支持 
文件 的 移动 性 一 一 多 个 文件 或 文件 卷 可 以 被 系统 管理 者 移动 或 自动 移动 。 

性 能 透明 性 ; 当 服 务 负载 在 一 个 特定 范围 内 变化 时 ， 客 户 程序 应 该 可 以 得 到 满意 的 性 能 。 

伸缩 透明 性 ; 文件 服务 可 以 不 断 扩 充 ， 以 满足 负载 和 网 络 规模 增长 的 需要 。 

并 发 文件 更 新 ”客户 改变 文件 的 操作 不 应 该 影响 其 他 客户 同时 进行 的 访问 和 改变 同一 文件 的 操作 。 
这 就 是 众所周知 的 并 发 控制 问题 ， 第 16 章 会 对 此 做 详细 讨论 。 许 多 应 用 程序 都 需要 对 共享 信息 的 访问 


527| ”进行 并 发 控制 ， 其 实现 技术 也 为 大 家 所 熟知 ， 但 其 开销 比较 大 。 当 前 大 多 数 文件 服务 都 遵循 现代 UNIX 


标准 ， 提 供 建议 性 的 或 强制 性 的 文件 级 或 记录 级 加 锁 。 
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文件 复制 ”在 支持 文件 复制 的 文件 服务 中 ， 一 个 文件 可 以 表示 为 其 内 容 在 不 同位 置 的 多 个 拷贝 。 
这 样 做 有 两 个 好 处 一 一 它 允 许 当 客户 端 访问 相同 的 文件 集合 时 多 个 服务 器 分 担 文件 服务 的 负载 ， 改 善 
服务 的 伸缩 性 ， 同 时 改善 容错 性 能 ， 因 为 当 一 个 文件 损坏 时 ， 客 户 可 以 访问 另 一 台 具 有 此 文件 副本 的 
服务 器 。 少 数 文件 服务 支持 完全 的 复制 ， 但 大 部 分 文件 服务 支持 文件 缓存 或 本 地 部 分 文件 复制 (这 是 
一 种 受 限 的 复制 形式 ) 。 关 于 数据 复制 的 讨论 详 见 第 18 章 ， 其 中 包括 Coda 复制 文件 服务 的 描述 。 

硬件 和 操作 系统 异 构 性 ”文件 服务 的 接口 必须 有 明确 的 定义 ， 这 样 在 不 同 的 操作 系统 和 计算 机 上 
可 以 实现 同样 的 客户 和 服务 器 软件 。 这 一 需求 是 开放 性 的 一 个 重要 方面 。 

容错 ”在 分 布 式 系统 中 ， 文 件 服务 的 中 心 角色 决定 了 在 客户 和 服务 器 出 现 故 障 时 服务 能 继续 使 用 
是 非常 重要 的 。 幸 运 的 是 ， 为 一 个 简单 的 服务 器 设计 一 个 中 等 的 容错 设计 是 比较 容易 的 。 为 了 应 付 暂 
时 的 通信 故障 ， 容 错 设 计 可 以 基于 最 多 一 次 的 调用 语义 〈 参 见 第 5. 3. 1 节 ) 。 而 在 按 寡 等 操作 设计 的 服 
务 器 协议 中 ， 容 错 设计 可 以 使 用 更 简单 的 最 少 一 次 语义 ， 以 保证 重复 的 请 求 不 会 导致 对 文件 的 无 效 更 
新 。 服 务 器 可 以 是 无 状态 的 ， 这 样 它 可 以 重新 启动 ， 而 且 服 务 在 发 生 故 障 后 被 恢复 时 ， 它 不 需要 恢复 
以 前 的 状态 。 文 件 复制 可 以 实现 对 连接 中 断 和 服务 器 故障 的 容错 ， 相 比 前 面 的 情况 而 言 这 个 目标 很 难 
达到 ， 我 们 会 在 第 18 章 讨 论 这 一 问题 。 

一 致 性 UNIX 文件 系统 这 样 的 传统 的 文件 系统 提供 的 是 单个 将 贝 更 新 的 语义 。 它 提供 了 一 个 
对 文件 进行 并 发 访问 的 模型 ， 即 当 多 个 进程 并 发 访问 或 修改 文件 时 ， 它 们 只 看 到 仅 有 一 个 文件 拷贝 存 
在 。 当 文件 在 不 同 的 地 点 被 复制 或 被 缓存 时 ， 一 个 找 贝 的 被 修改 之 处 要 传播 到 所 有 拷贝 ， 这 之 间 会 有 
不 可 避免 的 延迟 ， 这 种 情况 可 能 会 导致 在 一 定 程序 上 偏离 单个 拷贝 语义 。 

安全 性 ”几乎 所 有 的 文件 系统 都 提供 基于 访问 控制 列表 的 访问 控制 机 制 。 在 分 布 式 文件 系统 中 ， 
客户 的 请 求 需要 加 以 认证 ， 于 是 服务 器 上 的 访问 控制 要 基于 正确 的 用 户 身份 ， 同 时 还 需要 用 数字 签名 
和 对 机 密 数 据 加 密 〈 可 选 ) 机 制 来 保护 请 求 和 应 答 消息 。 我 们 将 在 案例 的 描述 中 讨论 这 些 需求 的 
影响 。 

效率 ”分 布 式 文件 系统 应 该 提供 至 少 和 传统 的 文件 系统 相同 的 能 力 ， 并 且 它 还 应 满足 一 定 的 性 能 
BOR, Birrell 和 Needham [1980] 对 他 们 的 Cambridge 文件 服务 器 (CFS) 的 设计 目标 的 描述 如 下 : 

为 了 共享 一 个 昂贵 的 资源 (也 就 是 硬盘 ) ， 我 们 希望 拥有 一 个 简单 、 低 级 别 的 文件 服务 器 。 这 样 ， 
我 们 就 可 以 自由 地 设计 适合 特定 客户 的 文件 系统 ， 但 同时 我 们 也 希望 拥有 可 以 被 客户 共享 的 高 级 别 的 
系统 。 

磁盘 存储 费用 的 降低 减弱 了 效率 的 重要 性 ， 但 不 同 客户 仍然 有 不 同 需求 ， 并 且 它 能 用 上 述 的 模块 
化 体系 结构 加 以 解决 。 

实现 文件 服务 的 技术 是 分 布 式 系统 设计 中 的 一 个 重要 部 分 。 分 布 式 文件 系统 应 提供 在 性 能 和 可 靠 
性 方面 能 和 本 地 文件 系统 比拟 的 、 甚 至 更 好 的 服务 。 它 必须 便于 管理 ， 能 提供 相应 的 操作 和 工具 , 使 
得 系统 管理 员 能 方便 地 安装 和 操作 系统 。 


12.1.3 实例 研究 


我 们 已 经 为 文件 服务 构造 了 一 个 抽象 模型 ， 这 个 模型 与 实现 机 制 分 离 并 且 比 较 简 单 ， 我 们 将 它 作 
为 介绍 性 的 例子 。 我 们 将 详细 地 描述 Sun 网 络 文件 系统 ， 描 述 我 们 更 为 简单 的 抽象 模型 ， 以 阐明 它 的 
体系 结构 。 然 后 ， 我 们 将 介绍 Andrew 文件 系统 ， 它 采用 不 同 的 方法 获得 可 伸缩 性 并 保持 一 致 性 。 

文件 服务 体系 结构 ”这 一 抽象 体系 结构 模型 同时 支持 NFS 和 AFS。 它 基于 三 个 模块 间 的 责任 划分 
为 应 用 程序 模拟 传统 文件 系统 接口 的 客户 模块 、 为 客户 提供 目录 和 文件 操作 的 服务 器 模块 。 这 种 体系 
结构 设计 启用 了 服务 器 模块 的 无 状态 实现 。 

SUN NFS Sun Microsystem 的 网 络 文件 系统 (NFS) 自 1985 年 面世 以 后 ， 已 广泛 应 用 于 工业 界 和 
学 术 界 。1984 年 ，Sun Microsystems 的 工作 人 员 承 担 了 NES 的 设计 和 开发 [Sandberg et al. 1985; Sand- 
berg 1987, Callaghan 1999] 。 尽 管 当 时 已 经 开发 出 一 些 分 布 式 文件 服务 ， 并 且 已 应 用 于 学 校 和 研究 性 实 
RZ, NFS 是 第 一 个 设计 成 产品 的 文件 服务 。NFS 的 设计 和 实现 在 技术 上 和 商业 上 获得 了 巨大 成 功 。 

为 了 将 NES 推广 为 一 个 标准 ，Sun 公司 公开 了 NFS 主要 的 接口 定义 【Sun 1989] ， 人 允许 其 他 供 货 商 来 产 
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生 实现 ， 同 时 通过 授权 的 方式 允许 其 他 计算 机 供 货 商 获得 参考 实现 的 源 代码 。 现 在 ，NFS 被 许多 供 货 商 支 
持 ， 同 时 定义 在 RFC 1813 [Callaghan et al. 1995] 的 NFS 协议 (版 本 3) 成 为 一 个 互联 网 标准 。Callaghan 关 
于 NFS 的 书 [Callaghan 1999] 是 关于 NFS 的 设计 和 开发 以 及 相关 问题 的 一 个 极 好 的 参考 。 

NFS 为 运行 在 UNIX 和 其 他 系统 上 的 客户 程序 提供 对 远程 文件 的 透明 访问 。 客 户 ~ 服务 器 的 关系 
是 对 称 的 : NFS 网 络 上 的 每 一 台 计 算 机 既 可 以 是 客户 ， 也 可 以 是 服务 器 ， 同 时 在 每 一 台 机 器 上 的 文件 
可 以 被 其 他 机 器 远程 访问 。 当 输出 自己 的 文件 时 ， 计 算 机 扮演 的 是 服务 器 的 角色 ; 当 访 问 其 他 机 器 的 
文件 时 ， 它 扮演 的 是 客户 的 角色 。 但 在 实际 环境 中 ， 通 常会 将 某 些 配置 较 高 的 机 器 作为 专用 服务 器 ， 
而 将 其 他 机 器 作为 工作 站 。 

NFS 的 一 个 重要 目标 是 对 硬件 和 操作 系统 异 构 性 实现 高 层 支 持 。NFS 的 设计 是 独立 于 操作 系统 的 : 
客户 和 服务 器 几乎 可 以 在 当前 所 有 的 操作 系统 平台 上 实现 ,包括 各 种 版 本 的 Windows, Mac OS, Linux 
和 几乎 所 有 其 他 版 本 的 UNX。 有 一 些 供 货 商 在 高 性 能 多 处 理 器 主机 上 开发 了 NFS 实现 ， 它 们 被 广泛 
用 于 满足 具有 许多 并 发 用 户 的 企业 内 部 网 的 存储 需要 。 

Andrew 文件 系统 ”Andrew 文件 系统 是 Camegie Mellon 大 学 (CMU) 开发 的 一 个 分 布 式 计算 环境 ， 
它 被 作为 校园 计算 和 信息 系统 [Morris et al. 1986], Andrew 文件 系统 〈 以 后 简称 为 AFS) 的 设计 反映 
了 通过 减少 客户 - 服务 器 通信 来 支持 大 规模 共享 信息 这 一 意图 。 它 通过 在 客户 和 服务 器 之 间 传输 整个 
文件 ， 并 在 客户 机 中 缓存 文件 直到 服务 器 收 到 一 个 更 新 的 版 本 的 方式 来 实现 这 一 意图 。 在 介绍 过 Saty- 
anarayanan [1989a; 1989b] 之 后 ,我们 会 介绍 AFS-2， 这 是 AFS 第 一 个 “产品 ”级 的 实现 。 关 于 AFS 
更 多 最 新 的 介绍 可 以 在 Campbell [1997] 和 [Linux AFS] 中 找到 。 

AFS 最 初 在 CMU 运行 BSD UNIX 和 Mach 操作 系统 的 工作 站 和 服务 器 网 络 中 实现 ， 然 后 ， 它 的 商业 
和 公用 领域 版 本 也 相继 实现 。 最 近 ， 在 Linux 操作 系统 [Linx AFS] 上 也 可 以 使 用 AFS 的 公用 领域 实 
现 。AFS 已 成 为 开放 软件 基金 会 《OSF) 的 分 布 式 计算 环境 (DCE) [www. opengroup. org] 中 的 DCE/ 
DFS 文件 系统 的 基础 。DCE/DFS 的 设计 在 一 些 重要 方面 超越 了 AFS， 我 们 将 在 12.5 节 介绍 这 一 点 。 


12.2 文件 服务 体系 结构 


为 了 清晰 地 划分 文件 访问 问题 的 关注 点 ,我 们 将 文件 系统 的 结构 化 分 成 三 个 组 件 一 一 平面 文件 服 
务 、 目 录 服 务 和 客户 端 模 块 。 图 12-5 显示 了 相关 的 模块 以 及 它们 之 间 的 关系 。 平 面 文 件 服务 和 目录 服 
务 将 接口 开放 ， 供 客户 程序 使 用 ， 它 们 同时 和 RPC 接口 一 起 提供 了 访问 文件 的 操作 。 客 户 模 块 提供 了 
同 传统 文件 系统 相似 的 关于 文件 操作 的 一 个 程序 接口 。 设 计 的 开放 性 体现 在 可 以 用 不 同 的 客户 模块 实 
现 不 同 的 程序 接口 ， 从 而 模拟 不 同 操作 系统 的 文件 操作 并 根据 不 同 的 客户 和 服务 器 硬件 配置 优化 性 能 。 


客户 端 计算 机 服务 器 计算 机 
应 用 应 用 目录 服务 
程序 程序 
平面 文件 服务 
客户 模块 
E 二 & 3 = 


图 12-5 文件 服务 体系 结构 


模块 之 间 的 职责 划分 如 下 : 
平面 文件 服务 “平面 文件 服务 注重 实现 在 文件 内 容 上 的 操作 。 唯 一 文件 标识 符 〈UFID) 用 于 在 所 
有 平面 文件 服务 操作 的 请 求 中 标识 文件 。 文 件 服务 和 目录 服务 的 职责 划分 是 基于 UFID 的 使 用 。UFID 


是 一 长 串 比特 ， 每 个 文件 的 UFID 在 分 布 式 系统 的 所 有 文件 中 是 唯一 的 。 当 平面 文件 服务 接收 到 一 个 


创建 文件 的 请 求 时 ， 它 生成 一 个 新 的 UFD 并 将 此 UFID 返回 给 请 求 者 。 
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目录 服务 ”目录 服务 提供 文件 的 文本 名 字 到 UFD 的 映射 。 客 户 可 以 通过 对 目录 服务 引用 文本 名 
字 来 获得 文件 的 UFID。 目 录 服 务 提供 生成 目录 、 为 目录 增加 新 的 文件 各 以 及 从 目录 中 获得 UFID 所 必 
需 的 功能 。 它 是 平面 文件 服务 的 客户 ; 它 的 目录 文件 存储 在 平面 文件 服务 提供 的 文件 中 。 当 采用 UNIX 
那样 的 层次 化 文件 命名 方案 时 ， 目 录 包 含 对 其 他 目录 的 引用 。 

客户 模块 ”客户 模块 运行 在 客户 计算 机 上 ， 它 在 一 个 应 用 程序 接口 下 集成 和 扩展 了 平面 文件 服务 
和 目录 文件 服务 的 操作 ， 该 程序 接口 可 供 客户 计算 机 上 的 用 户 级 程序 使 用 。 例 如 ， 在 UNIX 主机 上 ， 
一 个 客户 模块 可 以 模拟 UNIX 所 有 文件 操作 的 集合 ， 并 通过 向 目录 服务 迄 代 地 发 出 请 求 来 解释 UNIX 的 
文件 名 的 各 个 部 分 ， 从 而 模拟 UNIX 文件 操作 集 。 客 户 模块 也 拥有 平面 文件 服务 器 和 目录 服务 器 进程 
的 网 络 位 置信 息 。 最 后 ， 客 户 模块 还 可 以 通过 在 客户 端 缓 存 最 近 使 用 的 文件 块 的 方式 来 获得 满意 的 
性 能 。 

平面 文件 服务 接口 ”图 12-6 包含 对 平面 文件 服务 的 接口 定义 。 这 是 客户 模块 使 用 的 RPC 接口 ， 它 
并 不 是 直接 被 用 户 级 程序 使 用 。 当 Fileld 所 指 的 文件 不 在 处 理 请 求 的 服务 器 中 ， 或 访问 权限 不 允许 对 
此 文件 进行 请 求 的 操作 时 ，Fileid 是 无 效 的 。 如 果 Fileld 参数 包含 无 效 的 UFID 或 用 户 没 有 足够 的 访问 
权限 ， 那 么 除了 Create 接口 之 外 的 所 有 接口 上 的 过 程 都 会 抛 出 异常 。 为 清晰 起 见 ， 这 些 异 常 从 定义 中 
省 略 了 。 








Read (Fileld,in) 一 Data nI <i<Length 《File》， 则 从 文件 中 读 取 从 i 项 开始 的 至 多 有 


一 抛 出 BadPosition 7 项 的 序列 ， 并 在 Data 中 返回 结果 

Write (Fileld,i,Data) WR <isLength 《File〉+1， 则 从 文件 的 斋 开 始 写 入 Data 序 列 ， 
一 抛 出 BadPosition 在 需要 时 扩展 文件 

Create () —Fileld 生成 一 个 长 度 为 0 的 新 文件 ,并 为 其 指定 一 个 UFID 

Delete (Fileld) 从 文件 存储 中 删除 一 个 文件 


GetAttributes (Fileld) 一 Attr 返回 指定 文件 的 文件 属性 
SetAttributes (Fileld,Attr) 设置 文件 属性 (图 12-3 中 没有 阴影 的 那些 属性 》 





图 12-6 平面 文件 服务 操作 


读 和 写 是 最 重要 的 文件 操作 ，Read 和 Write 操作 都 需要 一 个 参数 i 来 指定 文件 的 读 写 位 置 。read 操 
作 从 指定 文件 的 第 i 项 开始 顺序 地 复制 n 个 数据 项 到 Data 中 ， 然 后 将 Data 返回 给 客户 。write 操作 复制 
Data 中 的 数据 序列 到 指定 文件 的 第 ; 项 位 置 ， 它 会 蔡 换 原 有 文件 在 相应 位 置 的 内 容 ， 并 在 需要 的 时 候 
扩展 文件 。 

Create 操作 创建 一 个 新 的 空 文件 并 返回 生成 的 UFID Delete 操作 删除 指定 的 文件 。 

GetAttributes 和 SetAttributes 操作 使 用 户 能 访问 属性 记录 。GetAttributes 操作 通常 对 每 个 能 读 文件 的 
客户 都 可 用 。 对 SetAttributes 操作 的 访问 通常 被 限制 在 提供 访问 文件 的 目录 服务 中 。 属 性 记录 的 长 度 和 
时 间 玲 的 值 不 会 受 SetAttributes 操作 的 影响 ; 它们 由 平面 文件 服务 单独 管理 。 

与 UNIX 的 比较 : 平面 文件 服务 接口 和 UNIX 的 文件 系统 原 语 在 功能 上 等 价 。 用 下 一 节 介 绍 的 平面 
文件 服务 和 目录 服务 操作 来 构建 模拟 UNIX 系统 调用 的 客户 模块 是 很 容易 的 。 

与 UNIX 接口 相 比 , 平面 文件 服务 没有 open 和 close 操作 一 一 通过 引用 合适 的 UFID 可 以 立刻 访问 
文件 。 在 我 们 的 接口 中 ，Read 和 Write 请 求 包括 指明 文件 中 起 始 读 写 点 的 参数 ， 而 在 与 之 等 价 的 UNIX 
操作 中 则 没有 。 在 UNIX 中 ， 每 一 个 Read 或 Write 操作 在 读 - 写 指针 指向 的 当前 位 置 开 始 操作 ， 并 且 
BE - 写 指针 在 read 或 write 操作 传输 完 数 据 后 会 自动 前 移 。seek 操作 用 于 使 读 写 指针 显 式 地 重 定位 。 

平面 文件 服务 的 接口 与 UNIX 文件 系统 接口 的 差别 主要 对 容错 有 一 些 影响 : 

可 重复 的 操作 : 除了 Create 操作 之 外 ， 其 他 操作 都 是 时 等 级 的 ， 即 允许 使 用 至 少 一 次 的 RPC 语 
义 ， 客 户 可 能 在 没有 收 到 应 答 的 情况 下 重复 调用 。 重 复 执行 Create 操作 会 每 次 生成 一 个 新 的 文件 。 

无 状态 服务 器 : 接口 适合 用 无 状态 服务 器 实现 。 无 状态 服务 器 可 以 发 生 故 障 后 重启 ， 它 可 以 在 不 
需要 客户 或 服务 器 恢复 任何 状态 的 情况 下 继续 操作 。 

UNIX 文件 操作 既 不 是 寡 等 级 的 ， 也 与 无 状态 实现 的 需求 不 一 致 。 当 文件 被 打开 时 ，UNIKX 文件 系 
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统 生 成 读 - 写 指针 ， 并 且 同 访问 控制 检查 的 结果 一 起 维持 到 文件 关闭 为 止 。UNIX 的 read 或 write 操作 
不 是 宕 等 级 的 。 如 果 一 个 操作 意外 重复 时 ， 读 - 写 指针 的 自动 前 移 会 导致 在 重复 的 操作 中 访问 文件 的 
不 同位 置 。 读 - 写 指针 是 一 个 隐藏 的 、 与 客户 相关 的 状态 变量 。 为 了 在 文件 服务 中 模仿 它 ， 系 统 应 提 
BE open 和 close 操作 ， 并 且 必 须 在 相关 文件 打开 后 就 一 直 维 持 读 - 写 指针 的 值 。 通 过 消除 读 - 写 指针 ， 
我 们 消除 了 大 多 数 文件 服务 中 代表 客户 保留 状态 信息 的 需要 。 

访问 控制 ”在 UNIX 文件 系统 中 ， 系 统 会 根据 在 open 调用 中 请 求 的 访问 〈 读 或 写 ) 模式 来 检查 用 
户 的 访问 权限 (图 12-4 给 出 了 UNIX 文件 系统 的 API) ， 并 且 只 有 在 用 户 拥有 相应 的 权限 时 ， 才 能 打开 
文件 。 访 问 权限 检查 中 使 用 的 用 户 标识 (UD) 是 用 户 认证 登录 的 结果 ， 并 且 在 非 分 布 式 的 实现 中 ， 
它 是 不 能 被 修改 的 。 访 问 权 限 会 保持 到 文件 关闭 为 止 ， 并 且 在 同一 文件 上 进行 后 续 操作 时 ， 系 统 不 需 
要 进行 进一步 检查 。 

在 分 布 式 的 实现 中 ,访问 权限 检查 必须 在 服务 器 上 进行 ， 这 是 因为 不 这 样 做 的 话 ， 服 务 器 RPC 接 
口 就 是 访问 文件 的 一 个 无 保护 的 点 。 用 户 标识 必须 在 请 求 中 传输 ， 并 且 服 务 器 容易 被 伪造 的 标识 欺骗 。 
更 严重 的 是 ， 如 果 访 问 权限 检查 的 结果 被 保留 在 服务 器 上 并 在 今后 的 访问 中 使 用 时 ， 服 务 器 就 不 再 是 
无 状态 的 。 有 两 种 方法 可 以 解决 后 一 个 问题 : 

。 当 文 件 名 被 转化 为 UFD 时 ， 系 统 执行 一 次 访问 检查 ， 同 时 其 结果 以 权能 的 形式 编码 〈 见 第 

11.2.4 节 ) ， 它 作为 以 后 一 系列 请 求 的 访问 许可 返回 给 客户 。 

。 在 每 一 次 客户 请 求 时 ， 都 要 提交 用 户 标识 ， 并 且 在 每 一 次 文件 操作 时 ， 服 务 器 都 进行 访问 

检查 。 

这 两 种 方法 都 支持 把 服务 器 实现 成 无 状态 的 ， 并 且 它 们 都 已 经 应 用 在 分 布 式 系 统 中 了 。 第 二 种 方 
法 更 常用 一 些 ，NFS 和 AFS 都 使 用 这 种 方法 。 两 种 方法 都 没有 解决 关于 伪造 用 户 标 识 的 安全 问题 。 这 
个 问题 可 以 利用 第 7 章 介绍 的 数字 签名 解决 。Kerberos 是 一 种 有 效 的 认证 方案 ， 它 已 经 应 用 于 NFS 和 
AFS 中 。 

在 我 们 的 抽象 模型 中 ， 我 们 没有 说 明 采 用 哪 种 方法 实现 访问 控制 。 用 户 标 识 可 以 作为 一 个 隐 式 参 
数 传递 ， 并 且 在 需要 的 时 候 使 用 它 。 

目录 服务 接口 ”图 12-7 包含 目录 服务 的 RPC 接口 的 定义 。 目 录 服 务 的 主要 目的 是 提供 将 文本 名 字 

533] Sy UFID 的 服务 。 为 了 做 到 这 一 点 ， 它 维护 了 一 个 包含 文件 名 到 UFD 映射 的 目录 文件 。 每 一 个 目 
录 作 为 具有 UFD 的 普通 文件 加 以 存储 。 因 此 ， 目 录 服 务 是 文件 服务 的 一 个 客户 。 

我 们 只 定义 了 在 单个 目录 上 的 操作 。 在 每 一 个 操作 中 ， 系 统 需 要 包含 目录 文件 的 UFID (在 Dir 参 
数 中 ) 。 基 本 目录 服务 中 的 Lookup 操作 执行 Name 一 UFID 的 转换 。 它 可 以 供 其 他 服务 或 客户 模块 使 用 
以 完成 更 复杂 的 映射 ， 如 在 UNIX 中 的 层次 化 名 字 解 释 。 像 以 前 一 样 ， 定 义 中 省 略 了 访问 权限 不 是 可 








能 引起 的 异常 。 

[Lookup (Dir,Name) 一 Fileld 在 目录 中 找到 文本 名 字 ， 并 返回 相关 的 UFID。 如 果 在 
一 抛 出 NotFound 目录 中 没有 找到 Name， 便 抛 出 异常 

| 如 果 目 录 中 没有 Name， 则 将 (Name, File) 加 入 到 目录 
人 中 ， 关 更 亲 基文 人性 记 末 如 果 在 目 孙 中 已 经 有 Name， 

异 

UnName (Dir,Name) 如 果 在 目录 中 已 经 有 Name， 则 包含 Name 的 条 日 被 删除 。 
一 抛 出 NotFound 如 果 在 目录 中 没有 找到 Name， 便 抛 出 异常 
| GetNames (DirPattem)-*NameSeq 返回 在 目录 中 所 有 与 正则 表达 式 Pattem 匹 配 的 文本 名 字 








图 12-7 目录 服务 操作 


改变 目录 可 采用 两 种 操作 : AddName 和 UnName, AddName 给 目录 增加 一 个 条 目 ， 并 且 在 文件 的 
属性 记录 中 将 引用 计数 字段 增 1。 

UnName 从 目录 中 删除 一 个 条 目 并 将 引用 计数 字段 减 一 。 当 引用 计数 字段 减少 到 零 的 时 候 ， 文 件 
被 删除 。GetName 使 客户 能 够 检查 目录 内 容 ， 同 时 它 还 实现 像 UNIX shell 中 的 对 文件 名 的 模式 匹配 操 
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作 。 它 返回 给 定 目录 中 存储 的 全 部 或 部 分 名 字 。 在 此 操作 中 ， 系 统 通过 对 客户 提供 的 正则 表达 式 进 行 
模式 匹配 来 寻找 文件 名 。 

GetName 操作 提供 的 模式 匹配 功能 使 得 用 户 能 够 通过 一 个 文件 名 中 的 部 分 字符 的 规约 来 查找 一 个 
或 多 个 文件 。 一 个 正则 表达 式 是 一 种 由 子 字符 串 和 标识 可 变 字符 ， 以 及 重复 出 现 的 字符 / 子 串 的 符号 组 
成 的 字符 串 表达 式 。 

层次 文件 系统 ”类似 UNK 提供 的 层次 文件 系统 由 组 织 成 树 型 结构 的 目录 组 成 。 每 一 个 目录 包含 
文件 和 其 他 可 以 从 此 目录 访问 的 目录 的 名 字 。 可 以 使 用 路 径 名 来 访问 任 一 文件 或 目录 一 一 路 径 名 是 代 
表 树 中 一 条 路 径 的 多 部 分 名 字 。 树 的 根 有 一 个 特定 的 名 字 ， 并 且 每 一 个 在 目录 中 的 文件 或 目录 都 有 名 
字 。UNIX 的 文件 命名 方案 不 完全 是 层次 性 的 一 一 一 个 文件 可 能 有 多 个 名 字 ， 它 们 可 以 在 相同 或 不 同 
的 目录 中 。 这 是 用 link 操作 实现 的 ， 该 操作 可 以 为 指定 目录 中 的 文件 增加 新 的 名 字 。 

像 UNIX 这 样 的 文件 命名 系统 可 以 由 使 用 了 平面 文件 服务 和 目录 服务 的 客户 模块 来 实现 。 在 目录 
的 树 型 结构 中 ， 文 件 在 叶 结 点 上 ， 而 目录 在 树 的 其 他 结 点 上 。 树 的 根 是 一 个 具有 “众所周知 ”的 UFD 
的 目录 。 可 以 使 用 AddName 操作 和 属性 记录 中 的 引用 计数 字段 来 为 同一 个 文件 取 多 个 名 字 。 

客户 模块 提供 一 个 函数 ， 用 于 实现 对 给 定 路 径 的 文件 查找 其 UFID 的 功能 。 该 函数 从 根 开始 解析 
路 径 名 ， 通 过 使 用 Lookup 操作 获得 路 径 上 每 一 个 目录 的 UFD, 

在 层次 化 目录 服务 中 ， 文 件 属性 应 该 包括 一 个 区 别 善 道 文件 和 目录 的 类 型 字段 。 可 以 根据 它 沿 着 
路 径 确 定名 字 的 各 个 部 分 〈 除 了 最 后 一 个 部 分 ) 都 是 目录 。 

文件 组 ”文件 组 是 在 一 个 位 于 给 定 服 务 器 上 的 文件 集合 。 一 个 服务 器 可 能 包含 数 个 文件 组 ， 文 件 
组 可 以 在 服务 器 之 间 移 动 ， 但 文件 不 能 改变 它 所 属 的 组 。 在 UNIX 和 大 多 数 其 他 操作 系统 中 使 用 的 是 
一 个 相似 的 构造 一 一 文件 集 系统 。( 术 语 “ 文 件 集 系 统 ”( 介 esystem) 指 的 是 一 个 存储 设备 或 分 区 拥有 
的 文件 的 集合 ， 而 “文件 系统 ” (file system) 指 的 是 提供 文件 访问 的 软件 组 件 。) 文件 组 最 初 被 用 来 支 
持 在 计算 机 间 移 动 存储 在 可 移动 介质 上 的 文件 集合 。 在 分 布 式 文件 服务 中 ,文件 组 支持 将 文件 以 更 大 
的 逻辑 单位 分 配 在 文件 服务 器 上 上， 同时 它 还 支持 用 存储 在 几 个 服务 器 上 的 文件 共同 实现 文件 服务 。 在 
支持 文件 组 的 分 布 式 文件 系统 中 ，UFID 包括 一 个 文件 组 标识 符 ， 它 能 使 每 个 客户 计算 机 上 的 客户 模块 
决定 是 否 向 包含 相应 文件 组 的 服务 器 分 发 请 求 。 

在 分 布 式 系统 中 ,文件 组 标识 符 必 须 唯一 。 因 为 文件 组 可 以 被 移动 ， 同 时 最 初 分 离 的 分 布 式 系统 
也 可 以 合并 成 一 个 系统 ， 所 以 保证 文件 组 在 给 定 的 系统 中 唯一 的 方法 只 能 是 : 用 一 个 确保 全 局 唯一 性 
的 算法 生成 文件 组 标识 符 。 例 如 ， 创 建新 的 文件 组 时 ， 可 由 创建 新 组 的 主机 的 32 位 的 IP 地 址 和 一 个 
根据 日 期 生成 的 16 位 整数 拼接 而 成 的 48 位 整数 来 形成 唯一 标识 符 。 

32 位 16 位 
mame | ee 。 | 日期 | 

需要 注意 的 是 ， 卫 地 址 不 能 用 来 定位 文件 组 ， 因 为 它 可 以 被 移动 到 其 他 服务 器 上 。 文 件 服务 应 该 
维护 一 个 组 标识 和 服务 器 之 间 的 映射 。 


12. 3 KHAR: SUN 网 络 文件 系统 

图 12-8 给 出 了 Sun NFS 的 体系 结构 。 它 遵循 前 面 介绍 的 抽象 模型 。 所 有 的 NFS 实现 都 支持 NFS H 
议 一 一 为 客户 提供 操作 远程 文件 存储 的 远程 过 程 调用 集合 。NFS 协议 与 操作 系统 无 关 ， 但 是 它 最 初 是 
为 在 UNIX 系统 网 络 中 使 用 而 开发 出 的 ， 我 们 将 描述 NES 协议 (版 本 3) 的 UNIX 实现 。 

NFS 服务 器 模块 驻 留 在 每 一 个 作为 NFS 服务 器 的 计算 机 的 内 核 上 ， 客 户 模块 将 引用 远程 文件 系统 中 
的 文件 的 请 求 翻译 为 NFS 协议 操作 ， 并 将 它 传输 到 保存 相关 文件 系统 的 计算 机 的 NES 服务 器 模块 上 。 

NFS 客户 和 服务 器 模块 使 用 远程 过 程 调 用 进行 通信 。5. 3. 3 节 描述 的 Sun RPC 系统 是 为 NFS 开发 
的 。 它 可 以 配置 为 使 用 UDP 或 使 用 TCP, NFS 可 以 兼容 这 两 种 配置 。 该 系统 包括 一 个 端口 映射 服务 ， 
它 能 使 客户 给 定 的 主机 名 字 绑 定 在 服务 上 。RPC 为 NFS 提供 的 接口 是 开放 的 ， 即 任 一 进程 都 能 向 NFS 
服务 器 发 送 请 求 ， 如 果 请 求 是 有 效 的 并 且 包 含有 效 的 用 户 凭证 ,那么 系统 会 进行 相应 的 操作 。 提 交 有 
用 户 签名 的 凭证 可 以 作为 一 个 可 选 的 安全 机 制 ， 它 就 像 数据 加 密 一 样 能 提供 私密 性 和 完整 性 。 

虚拟 文件 系统 ”图 12-8 表明 NFS 能 够 提供 访问 透明 性 : 用 户 程序 可 以 对 本 地 和 远程 文件 发 起 访问 
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图 12-8 NES 体系 结构 


而 没有 什么 区 别 。 其 他 分 布 式 文件 系统 也 可 能 支持 UNIX 系统 调用 ， 如 果 是 这 样 ， 那 么 它们 可 以 用 同 
样 的 方法 集成 起 来 。 

利用 虚拟 文件 系统 (VFS) 模块 可 以 实现 上 述 集成 ， 该 模块 已 经 加 入 到 UNIX 内 核 中 ， 用 于 区 分 本 
地 和 远程 文件 ， 它 还 用 于 在 NFS 使 用 的 独立 于 UNIX 的 文件 标识 符 和 在 UNIX 及 其 他 文件 系统 中 使 用 的 
内 部 文件 标识 符 之 间 进 行 转换 。 另 外 ，VFS 保持 对 当前 本 地 和 远程 均 可 用 的 文件 集 系统 的 跟踪 ， 并 且 
它 将 每 一 个 请 求 发 送 到 合适 的 本 地 系统 模块 上 (UNIX 文件 系统 ，NFS 客户 模块 或 其 他 文件 系统 中 的 服 
务 模块 ) 。 

在 NFS 中 使 用 的 文件 标识 符 称 为 文件 句柄 。 文 件 句柄 对 客户 是 不 透明 的 ， 它 包含 服务 器 区 分 单个 
文件 所 需要 的 信息 。 在 NFS 的 UNIX 实现 中 ,文件 句柄 是 从 文件 的 i 结 点 数 得 来 的 ， 它 在 i 结 点 中 加 入 
以 下 两 个 附加 域 (UNIX 文件 的 i 结 点 数 是 用 来 在 存储 文件 的 文件 系统 中 标识 和 定位 文件 的 数值 ) : 


文件 名 柄 ， | 。 文件 集 系统 标识 符 k 文件 的 ; 结 点 数 j 结 点 产生 数 


NFS 采用 UNIX 的 可 安装 文件 集 系 统 作为 上 一 节 定 义 的 文件 组 单元 。 文 件 集 系 统 标 识 符 域 是 在 创 
建 每 一 个 文件 集 系统 后 为 其 分 配 的 一 个 唯一 的 数值 (在 UNIX 实现 中 ， 它 存储 在 文件 系统 的 超级 块 
中 )。 因 为 在 传统 的 UNIX 文件 系统 中 ,i 结 点 数 在 文件 被 删除 后 就 由 其 他 文件 重用 ， 因 此 和 需要 i 结 点 产 
生 数 。 在 VES 对 UNIX 文件 系统 的 扩展 中 ，i 结 点 产生 数 和 文件 一 起 存储 ， 并 在 每 次 i 结 点 被 重用 时 
(例如 ,在 UNIX create 系统 调用 中 ) 加 一 。 第 一 个 文件 句柄 是 在 客户 安装 远程 文件 系统 时 获得 的 。 文 
件 句 柄 包含 在 lookup, create 和 mkdir 等 操作 (IÆ 12-9) 的 结果 中 ， 从 服务 器 传送 给 客户 ， 而 在 所 有 
服务 器 操作 的 参数 列表 中 ， 文 件 句柄 都 是 从 客户 传 到 服务 器 端 。 

在 虚拟 文件 系统 层 中 ， 每 一 个 已 安装 的 文件 系统 有 一 个 对 应 的 VES 结构， 并且 每 一 个 打开 的 文件 
有 一 个 结 点 。VFS 结构 将 一 个 远程 文件 系统 与 安装 VFS 的 本 地 目录 联系 起 来 。" 结 点 包含 一 个 指示 此 
文件 是 本 地 文件 还 是 远程 文件 的 标识 。 如 果 文 件 是 在 本 地 , v 结 点 包含 对 本 地 文件 索引 的 引用 (在 
UNIX 实现 中 ， 是 一 个 i 结 点 ) 。 如 果 是 远程 文件 ， 它 包含 远程 文件 的 文件 句柄 。 

客户 集成 ”在 我 们 的 体系 结构 模型 中 ，NFS 客户 模块 扮演 的 是 客户 模块 的 角色 ， 提 供 适 合 传统 应 
用 程序 使 用 的 接口 。 但 与 我 们 模型 中 的 客户 模块 不 同 的 是 : 它 精确 模拟 标准 UNK 文件 系统 原 语 的 语 
义 ， 并 与 UNIX 内 核 集成 在 一 起 。 它 与 内 核 集成 到 一 起 ， 而 不 是 以 客户 进程 运行 时 动态 加 载 库 的 形式 
提供 ， 这 样 会 导致 : 

。 用 户 程序 可 以 通过 UNIX 系统 调用 访问 文件 ， 而 不 需要 重新 编译 或 重新 加 载 库 。 

。 一 个 客户 端 模块 通过 使 用 一 个 共享 缓存 存储 最 近 使 用 的 文件 块 〈 将 在 下 面 介绍 ) ， 可 以 为 所 有 

的 用 户 级 进程 服务 。 
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。 传输 给 服务 器 用 于 认证 用 户 D 的 密 铀 可 以 由 内 核 保存 ， 这 样 可 以 防止 用 户 级 客户 假冒 用 户 。 

在 每 一 台 客 户 机 上 ，NFS 客户 模块 与 虚拟 文件 系统 协同 工作 。 它 以 一 种 和 传统 UNIX 文件 系统 相 
似 的 方式 操作 ， 在 服务 器 和 客户 之 间 传 输 文件 块 ， 并 在 可 能 的 情况 下 将 文件 块 缓存 在 本 地 的 内 存 中 。 
它 共 享 本 地 输入 输出 系统 使 用 的 缓冲 区 。 但 因为 会 有 不 同 主机 上 的 多 个 客户 同时 访问 同一 远程 文件 的 
情况 ， 所 以 出 现 了 新 的 且 重 要 的 缓存 一 致 性 问题 。 


| lookup (dirfh,name) —fh,attr 
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返回 目录 dirfh 中 的 文件 name 的 文件 句柄 和 属性 
nan 建 具有 attr 属 性 的 新 文件 name， 返 回 新 文件 的 句柄 


create (dirfh,name,attr) 一 
newfh, attr 


从 目录 dirfh 中 删除 文件 name 
返回 文件 身 的 文件 属性 (类 似 于 UNIX 的 stat 系 统 调用 ) 


设置 属性 〈 模 式 、 用 户 ID、 组 ID、 文 件 大 小 、 访 问 时 间 和 文件 的 
修改 时 间 ) 。 将 文件 大 小 设 为 0 意味 着 截断 文件 


pA onse EF Roun EE EE 也 返回 文件 的 最 新 


remove (dirfh,name) —status 
getattr (fh) —attr 
setattr (fh, attr) —>attr 


read (fh,offset,count) — attr, data 


write (fh,offset,count,data) 一 attr 从 文件 offset 位 置 开始 写 count 个 字 节 的 数据 。 并 返回 写 完 后 文件 的 
属性 


rename (dirfh,name,todirfh, 
toname) —status 


link (newdirfh,newname,fh) 
—status 


将 dirth 目 录 中 的 文件 name 的 名 字 改 为 todirfh 目 录 中 的 名 字 toname 


在 目录 newdirfh 中 创建 一 个 条 目 newname， 该 条 目 指向 文件 或 目录 fp 





在 目录 newdirfh 中 创建 一 个 类 型 为 symbolic link、 值 为 string 的 新 条 
Bnewname, 服务 器 并 不 解释 string 而 是 建立 一 个 符号 链接 文件 保存 
该 string 


symlink (newdirfh,newname,string) 
—status 





readlink (fh) —string 


mkdir (dirfh,name,attr ) 
—newfh, attr 


rmdir (dirfh, name) 一 "status 


readdir (dirfh,cookie,count) 
—entries 


statfs (fh) —fsstats 


JE TAL Sg PRI ANTE BEEBE PE PT R 
加 全 于 “个 具有 sit 属性 的 新 目录 name， 并 且 返 回 新 的 文件 句柄 和 


从 父 目 录 dirfh 中 删除 空 目录 name， 如 果 此 目录 非 空 ， 则 操作 失败 


从 目录 dirfh 中 返回 目录 条 目的 至 多 count 字 节 。 每 一 个 条 目 包含 一 
个 文件 名 、 文 件 句 柄 和 一 个 指向 下 一 个 目录 条 目的 不 透明 指针 ， 该 
指针 称 为 cookie。cookie 用 于 在 随后 的 readdir 操 作 中 从 下 一 个 目录 条 
目 中 开始 读 。 如 果 cookie 的 值 是 0， 则 从 目录 中 第 一 个 条 目 开 始 读 





为 包含 文件 外 的 文件 系统 返回 文件 系统 信息 〈 例 如 块 大 小 ， 空 闲 
的 数目 等 》 





图 12-9 NFS 服务 器 操作 (NFS v3 协议 , 简化 表示 ) 


访问 控制 和 认证 “与 传统 UNIX 文件 系统 不 同 ，NFS 服务 器 是 无 状态 的 ， 并 且 不 代表 客户 持续 打 
开 文 件 。 因 此 在 用 户 发 出 每 一 个 新 的 文件 请 求 时 ， 服 务 器 必须 重新 对 比 用 户 标 识 和 文件 访问 许可 属性 
来 判断 是 否 允 许 用 户 进行 相应 的 访问 。Sun RPC 协议 要 求 用 户 在 每 一 次 请 求 时 发 送 用 户 认证 信息 ( 例 
如 ,传统 UNIX 的 16 位 用 户 ID 和 组 .ID)， 同 时 将 它 与 文件 属性 中 的 访问 许可 进行 对 比 。 图 12-9 是 对 
NFS 协议 的 简介 ， 其 中 没有 给 出 这 些 附加 人 参数， 它们 由 RPC 系统 自动 提供 。 

在 最 简单 的 形式 下 ， 访 问 控制 机 制 有 一 个 安全 漏洞 。 在 每 个 主机 的 已 知 端口 上 ，NFS 服务 器 提供 
了 一 个 传统 的 RPC 接口 ， 而 且 每 个 进程 可 以 作为 一 个 客户 向 服务 器 发 送 访问 和 更 新 文件 的 请 求 。 客 户 
可 以 修改 RPC 调用 以 包括 用 户 中， 从 而 防止 该 用 户 被 假冒 。 这 一 安全 漏洞 可 以 通过 在 RPC 协议 中 使 
用 DES 加 密 用 户 认 证 信息 的 方法 来 弥补 。 最 近 ，Kerberos 已 经 与 Sun NFS 集成 起 来 ， 它 为 用 户 认证 和 
安全 性 问题 提供 了 功能 更 强 、 更 全 面 的 解决 方案 ， 我 们 将 在 下 面 介绍 它 。 

NFS 服务 器 接口 ”图 12-9 给 出 了 由 NFS 服务 器 v3 (在 RFC 1813 [Callaghan et al. 1995] 中 定义 的 ) 
提供 的 RPC 接口 的 一 个 简化 表示 。NFS 的 文件 访问 操作 read, write, getattr 和 setattr 几乎 等 同 于 我 们 在 
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平面 文件 服务 模型 (参见 图 12-6) 中 定义 的 Read、Write、GetAttributes 和 SetAttributes 操作 。 在 图 12-9 
中 定义 的 lookup 操作 和 其 他 大 部 分 目录 操作 与 我 们 在 目录 服务 模型 (参见 图 12-7) 中 定义 的 操作 类 似 。 

文件 和 目录 操作 集成 在 一 个 服务 中 。 用 一 个 create 操作 就 能 在 目录 中 完成 创建 和 插入 文件 名 的 操 
作 ， 该 操作 取 新 文件 的 文件 名 和 目标 目录 的 文件 句柄 作为 参数 。 目 录 上 的 其 他 NFS 操作 包括 create, 
remove, rename, link, symlink, readlink, mkdir, rmdir, readdir 和 statfs。 除 了 readdir (提供 了 一 个 读 
目录 内 容 的 独立 于 表示 的 方法 ) 和 statfs (给 出 远程 文件 系统 的 状态 信息 ) 之 外 ， 它 们 都 在 UNIX 中 有 
对 应 的 操作 。 

安装 服务 ”运行 在 每 一 个 NFS 服务 器 上 的 安装 服务 进程 支持 客户 安装 远程 文件 集 系 统 的 子 树 。 每 
一 个 服务 器 上 都 有 一 个 具有 已 知名 字 的 文件 〈/ete/exports) ， 它 包含 用 于 远程 安装 的 本 地 文件 集 系 统 的 
名 字 。 每 一 个 文件 集 系统 的 名 字 与 一 个 访问 列表 相关 联 ， 该 表 用 来 指明 哪些 主机 可 以 安装 文件 集 系 统 。 

客户 使 用 一 个 修改 过 的 UNIX mount 命令 ， 通 过 在 其 中 指定 远程 主机 和 名字、 远程 文件 集 系 统 的 目录 
路 径 名 和 将 要 安装 的 本 地 名 字 来 请 求 安装 一 个 远程 文件 集 系 统 。 远 程 目 录 可 以 是 所 请 求 的 远程 文件 系 
统 的 某 个 子 树 ， 使 得 客户 可 以 安装 任何 一 部 分 远程 文件 集 系 统 。 修 改过 的 mount 命令 使 用 mount 协议 
与 远程 主机 上 的 安装 服务 进程 进行 通信 。mount 协议 是 一 种 RPC 协议 ， 它 以 一 个 给 定 的 目录 路 径 名 作 
为 参数 ， 并 返回 指定 目录 的 文件 句柄 ， 其 前 提 是 用 户 拥 有 访问 相关 文件 集 系 统 的 权限 。 服 务 器 的 位 置 
〈 卫 地 址 和 端口 号 ) 和 远程 目录 的 文件 句柄 被 发 送 到 VES 层 和 NFS 客户 。 

图 12-10 描述 了 一 个 具有 两 个 远程 安装 的 文件 存储 的 客户 。 在 服务 器 1 和 服务 器 2 上 的 文件 集 系统 中 的 
people 和 users 结 点 被 安装 到 客户 本 地 文件 存储 的 students 和 staff 结 点 上 。 这 意味 着 运行 在 客户 端的 程序 可 
以 通过 使 用 像 /usr/students/jon 和 /usr/staff/ ann 这 样 的 路 径 名 来 访问 服务 器 1 和 服务 器 2 上 的 文件 。 


服务 器 1 客户 服务 器 2 
/(root) /Croot) / (root) 


fire AN 


export ..  vmunix usr 


E Ao 


AN 安装 students x | staff 安装 Cie 
big jon bob... jim ann jane joe 
注 : 安装 在 客户 /usr/students 上 的 文件 系统 实际 上 是 位 于 服务 器 1 上 的 /export/people 下 的 一 个 子 树 ; 
安装 在 客户 /usr/stu 伯 上 的 文件 系统 实际 上 是 位 于 服务 器 2 上 的 /nfs/users 下 的 一 个 子 树 。 
图 12-10 在 NFS 客户 端 可 访问 的 本 地 和 远程 文件 集 系 统 


远程 文件 集 系 统 可 通过 硬 安装 和 软 安 装 两 种 方式 安装 到 客户 计算 机 上 。 当 一 个 用 户 级 进程 访问 硬 
安装 的 文件 集 系 统 中 的 一 个 文件 时 ， 进 程 被 挂 起 直到 请 求 完成 。 如 果 远 程 主机 因为 某 种 原因 无 法 使 用 
By, NFS 客户 模块 会 继续 重复 其 请 求 直到 该 要 求 被 满足 为 止 。 这 样 ， 在 服务 器 失效 的 情况 下 ， 用 户 级 
进程 会 一 直 挂 起 直到 服务 器 重启 为 止 ， 然 后 继续 执行 其 工作 ， 就 好 像 没 有 出 现 故 障 一 样 。 但 是 ， 如 果 
相关 文件 集 系统 是 采用 软 安装 方式 安装 的 ，NFS 客户 模块 会 在 数 次 重新 请 求 失败 后 向 用 户 级 进程 返回 
一 个 故障 指示 。 构 建 恰当 的 程序 可 以 检测 到 故障 ， 并 能 执行 合适 的 恢复 或 报告 操作 。 但 许多 UNIX 设 
施 和 应 用 并 不 检测 文件 访问 操作 的 故障 ， 当 软 安装 文件 集 系 统 失效 时 ， 它 们 可 能 以 一 种 非 预 期 的 方式 
执行 。 基 于 此 ， 许 多 情况 下 只 使 用 硬 安 装 ， 结 果 造 成 NFS 服务 器 如 果 在 较 长 时 段 内 不 可 用 时 ， 程 序 不 
能 很 好 地 恢复 。 

路 径 名 翻译 ”每 次 使 用 open, create 或 stat 系统 调用 时 ，UNIX 文件 系统 一 步 步 地 将 多 部 分 文件 路 
径 名 转换 为 i 结 点 引用 。 在 NFS 中 ， 路 径 名 不 能 在 服务 器 上 转换 。 这 是 因为 一 个 名 字 可 能 涉及 客户 端 
的 一 个 “安装 点 ” 拥有 多 部 分 不 同名 字 的 目录 可 能 驻 留 在 不 同 服务 器 上 的 文件 集 系统 中 。 所 以 要 
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解析 路 径 名 ， 由 客户 以 交互 方式 完成 路 径 名 的 翻译 。 系 统 使 用 数 个 单独 的 对 远程 服务 器 的 lookup 请 求 
将 指向 远程 安装 目录 的 名 字 的 每 一 部 分 翻译 为 文件 句柄 。 

lookup 操作 在 给 定 的 目录 中 查找 路 径 名 的 一 个 部 分 ， 并 返回 相应 的 文件 句柄 和 文件 属性 。 在 前 一 
步 返回 的 文件 句柄 作为 下 一 个 lookup 的 参数 。 由 于 文件 句柄 对 NFS 客户 端 代码 是 不 透明 的 ， 所 以 虚拟 
文件 系统 负责 将 文件 句柄 解析 为 本 地 或 远程 目录 ， 如 果 文 件 句柄 引用 了 本 地 安装 指针 ， 虚 拟 文件 系统 
还 需要 做 一 些 间接 转换 。 路 径 翻 译 的 每 一 步 结果 可 以 被 存储 在 缓存 中 ， 这 样 可 以 利用 对 文件 和 目录 的 
本 地 引用 来 提高 进程 执行 的 效率 。 用 户 和 程序 通常 仅 访问 一 个 或 儿 个 目录 中 的 文件 。 

自动 装载 器 ”为 了 在 客户 引用 一 个 “ 空 ”安装 点 时 动态 地 安装 一 个 远程 目录 ， 人 们 在 NFS 的 
UNIX 实现 中 加 入 了 自动 装载 器 。 最 初 ， 自 动 装载 器 的 实现 是 在 每 一 个 客户 计算 机 上 作为 一 个 用 户 级 的 
UNIX 进程 来 运行 的 。 此 后 的 版 本 〈 称 为 autofs) 实现 在 Solaris 和 Linux 的 内 核 中 。 这 里 ,我 们 介绍 最 
初 的 版 本 。 

自动 装载 器 维护 一 张 记录 安装 点 ( 路径 名 ) 和 对 应 的 一 个 或 多 个 NFS 服务 器 的 列表 。 在 客户 机 
上 ， 它 就 像 一 个 本 地 的 NFS 服务 器 一 样 。 当 NFS 客户 模块 试图 解析 包含 一 个 安装 点 的 路 径 名 时 ， 它 向 
本 地 自动 装载 器 发 出 一 个 lookup) 请 求 ， 由 自动 装载 器 在 它 的 列表 中 定位 所 需 的 文件 集 系统 ， 并 且 向 
表 中 对 应 的 服务 器 发 出 “试探 性 ”的 请 求 。 然 后 通过 正常 的 安装 服务 ， 将 第 一 个 响应 的 服务 器 上 的 文 
件 集 系 统 安装 到 客户 端 上 。 被 安装 的 文件 集 系 统 通 过 符号 链接 连接 在 安装 点 上 ， 这 样 客户 下 一 次 访问 
时 就 不 需要 再 向 自动 装载 器 发 出 请 求 。 除 非 在 数 分 钟 内 系统 没有 引用 符号 链接 (这 种 情况 下 ， 自 动 装 
载 器 印 载 了 远程 文件 集 系统 ) ， 否 则 都 可 以 正常 的 访问 文件 。 

后 来 的 内 核实 现 方式 以 真实 的 安装 取代 了 符号 链接 ， 这 样 避免 了 因为 缓存 用 户 级 自动 装载 器 使 用 
的 临时 路 径 名 而 引起 的 一 些 问题 [Callaghan 1999 ] 。 

如 果 在 自动 装载 器 列表 中 列 出 包含 同一 文件 集 系 统 或 文件 子 树 的 拷贝 的 服务 器 ， 那 么 自动 装载 器 
可 以 实现 一 种 简单 的 只 读 复制 。 对 不 经 常 改 变 但 使 用 频繁 的 文件 系统 而 言 (如 UNIX 系统 二 进 制 文 
件 )， 该 机 制 是 非常 有 用 的 。 例 如 ，/usr/lib 目录 及 其 子 树 的 拷贝 可 以 存储 在 多 个 服务 器 上 。 当 /usrvlib 
的 文件 被 一 个 客户 打开 时 ， 系 统 向 所 有 的 服务 器 发 送 试探 性 消息 ， 第 一 个 响应 的 服务 器 的 文件 集 系统 
被 安装 到 客户 端 上 。 这 种 方式 提供 了 一 定 程度 的 容错 和 负载 平衡 ， 因 为 第 一 个 响应 的 服务 器 是 正常 工 
作 的 ， 同 时 它 也 可 能 是 负载 较 轻 的 。 

服务 器 缓存 ”为 了 获得 良好 的 性 能 ， 可 以 在 客户 和 服务 器 上 进行 高 速 缓存 ， 它 是 NFS 实现 的 一 个 
不 可 缺少 的 特征 。 

在 传统 的 UNIX 系统 中 ， 从 磁盘 上 读 取 的 文件 页 、 目 录 和 文件 属性 都 保留 在 主 存 的 缓冲 区 缓存 上 ， 
直到 其 他 页 面 要 求 占 用 该 缓冲 区 的 空间 为 止 。 如 果 一 个 进程 对 缓存 中 的 页 面 发 出 一 个 读 或 写 的 请 求 ， 
那么 系统 不 需要 再 访问 磁盘 就 可 以 完成 此 操作 。 预 先 读 用 于 预测 读 访问 ， 并 将 那些 最 近 最 常用 的 页 面 
取 入 内 存 ， 而 延迟 写 用 于 优化 写 操作 的 性 能 : 当 一 个 页 面 已 经 被 改变 时 (因为 一 个 写 操 作 ) ， 只 有 在 
该 缓冲 区 页 将 被 其 他 页 占用 时 才 将 该 页 面 内 容 写 到 磁盘 中 。 为 了 防止 因 系 统 崩溃 引起 的 数据 丢失 ， 
UNIX 的 syne 操作 每 隔 30s 将 改变 的 页 面 写 到 磁盘 中 。 这 些 缓存 技术 在 传统 的 UNIX 环境 中 都 可 行 ， 因 
为 由 用 户 级 进程 发 出 的 所 有 的 读 和 写 请 求 都 被 发 送 到 在 UNIX 内 核 空间 中 实现 的 一 个 缓存 上 。 该 缓存 
保持 的 内 容 是 最 新 的 ， 同 时 文件 操作 不 能 绕 过 该 缓存 。 

仅 当 NES 服务 器 被 用 于 访问 其 他 文件 时 ， 它 才 使 用 服务 器 上 的 缓存 。 使 用 服务 器 的 缓存 来 保存 最 
近 读 取 的 磁盘 块 不 会 引起 任何 一 致 性 问题 ; 但 当 服务 器 执行 写 操作 时 ， 系 统 需要 特殊 的 方法 来 保证 客 
户 确信 写 操作 的 结果 是 持久 性 的 ， 即 使 服务 器 崩溃 时 也 是 如 此 。 在 NFS 协议 版 本 3 H, write 操作 为 此 
提供 了 两 种 选项 (没有 在 图 12-9 中 标 出 ) : 

1) 客户 发 出 的 wite 操作 中 的 数据 存储 在 服务 器 的 内 存 缓 存 中 ， 在 给 客户 发 送 应 答 前 先 将 应 答 写 
人 磁盘 。 这 称 为 写 透 缓 在。 客户 可 以 相信 : 当 他 收 到 应 答 时 ， 数 据 已 经 被 持久 地 存储 起 来 了 。 

2) write 操作 中 的 数据 只 存储 在 内 存 缓存 中 。 当 系统 接收 相关 文件 的 commit 操作 时 ， 它 被 写 人 磁 
盘 中 。 仅 当 客 户 接收 到 相关 文件 的 commit 操作 的 应 答 时 ， 客 户 才能 肯定 数据 被 持久 地 存储 了 。 标 准 的 
NFS 客户 使 用 这 种 操作 方式 : 在 每 次 用 于 写 而 打开 的 文件 关闭 时 ， 它 发 送 一 个 commit, 
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commit 是 NFS 协议 版 本 3 提供 的 一 个 附加 操作 ， 它 用 来 解决 在 具有 大 量 write 操作 的 服务 器 中 因 写 
透 操作 模式 引起 的 性 能 瓶颈 问题 。 

在 分 布 式 文件 系统 中 ， 对 写 透 的 需求 是 对 第 1 章 讨论 的 独立 故障 模式 的 一 个 实例 一 -- 当 服务 器 出 
现 故 障 后 ， 客 户 可 以 继续 工作 ， 同 时 应 用 程序 在 以 前 写 操作 的 结果 已 经 被 提交 到 磁盘 存储 的 假设 下 继 
续 执 行 。 这 种 情况 不 可 能 发 生 在 本 地 文件 更 新 上 ， 因 为 本 地 文件 系统 的 故障 一 定 会 导致 运行 在 相同 计 
算 机 上 的 应 用 程序 进程 发 生 故 障 。 

客户 缓存 ”为 了 减少 传输 给 服务 器 的 请 求 数量 ，NFS 客户 模块 将 read, write. getattr, lookup 和 
readdir 操作 的 结果 缓存 起 来 。 客 户 缓存 可 能 导致 在 不 同 的 客户 结 点 上 存在 不 同 版 本 的 文件 或 不 同 的 文 
件 内 容 ， 这 是 因为 在 一 个 客户 上 的 写 操 作 可 能 不 会 引起 在 其 他 客户 上 的 同一 文件 拷贝 的 立即 更 新 。 要 
由 客户 用 轮 询 服务 器 的 方式 来 检查 他 们 所 拥有 的 缓存 数据 是 否 是 最 新 的 。 

在 使 用 缓存 块 之 前 ， 可 以 使 用 一 种 基于 时 间 堆 的 方法 对 缓存 块 进 行 验证 。 缓 存 中 的 每 个 数据 或 元 
数据 项 被 标记 上 两 种 时 间 戳 : 

。 Te 是 缓存 条 目 上 一 次 被 验证 的 时 间 。 

© Tm 是 服务 器 上 一 次 修改 文件 块 的 时 间 。 

设 当 前 时 间 为 了， 如 果 T 了 -Te 小 于 更 新 的 时 间 间 隔 上， 或 者 当 记 录 在 客户 端的 Tm 值 和 在 服务 器 上 
的 Tm 值 相 等 时 (也 就 是 说 ， 在 缓存 这 个 条 目 后 ， 服 务 器 上 的 数据 就 没有 更 新 过 ) ， 那 么 该 缓存 条 目 是 
有 效 的 。 以 下 是 用 形式 化 方法 表示 的 有 效 性 条 件 : 

(T-Te < t) V (Imam = Tit see) 

选择 上 值 时 对 一 致 性 和 效率 进行 了 折 中 。 更 新 闻 隔 过 短 会 导致 近似 于 单个 揽 贝 的 一 致 性 ， 但 因为 
服务 器 要 频繁 地 检查 Tm,,,, ， 开 销 比较 大 。 在 Sun Solaris 客户 上 ， 根 据 文 件 更 新 的 频 度 ，! 可 在 3~30s 
之 间 取 值 。 而 对 于 目录 , 可 在 30 ~60s 之 间 取 值 ， 这 说 明 发 生 目 录 并 发 更 新 的 风险 比较 低 。 

每 个 文件 的 所 有 数据 块 都 有 一 个 Tm,。,。 值 ， 对 于 文件 属性 还 有 另 一 个 值 。 因 为 NFS 客户 不 知道 文 
件 是 和 否 被 共享 ， 所 以 验证 过 程 要 施加 到 所 有 被 访问 的 文件 。 每 次 使 用 缓存 项 ， 系 统 就 执行 有 效 性 检查 : 
前 一 个 有 效 性 条 件 的 判断 可 以 不 访问 服务 器 就 能 进行 。 如 果 其 判定 结果 为 真 ， 那么 系统 不 需要 检查 第 
二 个 条 件 ; 如 果 结 果 为 假 ， 那 么 就 要 从 服务 器 上 获得 当前 的 Tm,,。 值 (对 服务 器 应 用 getattr 操作 ) ， 并 
将 它 与 本 地 的 Tm 进行 比较 。 如 果 结 果 相 同 ， 那么 此 缓存 项 便 被 认为 有 效 ， 并 且 其 Te 值 将 被 更 新 为 
当前 时 间 。 如 果 它 们 不 相同 ， 那 么 缓存 的 数据 已 在 服务 器 上 被 更 新 过 ， 此 条 目 无 效 ， 这 会 产生 一 个 获 
得 服务 器 上 相关 数据 的 请 求 。 

有 儿 种 方法 可 以 减 小 对 服务 器 进行 getattr 调用 的 数量 : 

© 当 客户 收 到 一 个 新 的 Tm.。。. 值 时 ， 将 该 值 应 用 于 所 有 相关 文件 派生 的 缓存 项 。 

。 将 每 一 个 文件 操作 的 结果 同 当前 文件 属性 一 起 发 送 ， 如 果 Tm,,。 值 改变 ， 客 户 便 用 它 来 更 新 组 

存 中 与 文件 相关 的 条 目 。 

。 采用 自 适应 算法 来 设置 更 新 间隔 值 :， 对 大 多 数 文 件 而 言 ， 可 以 极 大 地 减少 调用 数量 。 

验证 过 程 不 能 保证 提供 和 传统 UNIX 系统 一 样 一 致 性 ， 因 为 共享 一 个 文件 的 所 有 客户 并 不 是 总 能 
及 时 知道 数据 的 更 新 ， 会 存在 两 种 时 间 延 迟 : 写 数据 后 更 新 在 客户 内 核 缓存 中 的 相应 数据 之 前 的 延迟 ， 
以 及 用 于 缓存 验证 的 3s 的 “窗口 ” 。 幸 运 的 是 ， 大 多 数 UNIX 应 用 程序 并 不 严格 依赖 于 文件 的 同步 更 
新 ， 由 这 个 原因 引发 的 麻烦 已 经 引起 人 们 的 重视 。 

写 操 作 以 不 同 的 方式 被 处 理 。 当 一 个 缓存 的 页 面 被 修改 后 ， 它 被 标记 为 脏 的 ， 并 通过 调度 被 异步 
地 更 新 到 服务 器 中 。 当 客户 关闭 文件 或 发 生 sync 操作 时 ， 修 改 的 页 面 被 更 新 到 服务 嚣 中， 如果 使 用 
bio-daemon ( 见 下 面 的 介绍 ) ， 它 的 更 新 频率 会 更 高 。 这 并 不 能 提供 像 服务 器 缓存 一 样 的 持久 性 保证 ， 
但 它 能 够 模拟 本 地 写 操作 的 行为 。 

为 了 实现 预先 读 和 延迟 写 ，NFS 客户 需要 异步 地 执行 读 和 写 操作 。 在 NFS 的 UNIX 实现 中 ， 客 户 
可 以 通过 在 每 个 客户 端 包含 一 个 或 多 个 bio-daemon 进程 实现 这 一 点 。(bio 代表 块 输入 输出 ; daemon 经 
常 指 执行 系统 任务 的 用 户 级 进程 ) bio-daemon 负责 执行 预先 读 和 延迟 写 操 作 。 每 当 发 生 读 请 求 ， 就 通 
知 bio-daemon， 由 它 请 求 将 这 些 文 件 块 从 服务 器 传输 给 客户 缓存 。 在 执行 写 操作 的 情况 下 ， 当 一 个 块 
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被 客户 操作 填 满 时 ，bio- daemon 会 将 此 块 发 给 服务 器 。 当 目录 发 生 改 变 时 ， 相 应 的 目录 块 会 被 立即 
发 送 。 

bio- daemon 进程 改善 了 性 能 ， 确 保 客 户 模块 不 会 因 等 待 服务 器 端的 read 返回 或 者 write 确认 而 阻 
塞 。 这 些 并 不 是 逻辑 上 的 需要 ， 因 为 在 没有 预先 读 的 情况 下 ， 用 户 进程 的 一 个 read 操作 会 触发 对 相关 
服务 器 的 同步 请 求 ， 当 相关 的 文件 关闭 或 当 客户 端的 虚拟 文件 系统 执行 一 个 sync 操作 时 ， 用 户 进程 的 
write 操作 的 结果 将 被 传输 给 服务 器 。 

其 他 优化 ”Sun 文件 系统 基于 UNIX BSD 快速 文件 系统 ， 它 使 用 8KB 磁盘 块 ， 相 对 于 以 前 的 UNIX 
系统 ， 它 减少 了 用 于 顺序 文件 访问 的 文件 系统 调用 。 实 现 Sun RPC 的 UDP 数据 包 扩充 到 9KB， 这 使 得 
包含 一 个 完整 块 的 RPC 调用 可 以 作为 一 个 参数 在 数据 包 中 传送 ， 当 顺序 读 取 文件 时 ， 还 可 以 减 小 网 络 
延迟 的 影响 。NFSv3 没有 限制 read 或 write 操作 处 理 的 文件 块 的 最 大 尺寸 ， 当 文件 块 的 尺寸 超过 8KB 并 
且 客 户 端 和 服务 器 都 可 以 处 理 这 类 文件 块 时 ， 它 们 将 进行 协商 。 

正如 上 面 所 提 到 的 ， 对 于 活动 的 文件 ， 客 户 应 该 至 少 每 隔 3s 更 新 在 缓 在 的 文件 的 状态 信息 。 为 了 
减少 由 getattr 请 求 引起 的 服务 器 负载 ， 关 于 文件 或 目录 的 所 有 操作 都 隐 含 getattr 请 求 ， 并 且 可 以 在 其 
他 操作 的 结果 中 撒 带 上 当前 的 属性 值 。 

用 Kerberos 实现 NFS 的 安全 性 ”在 11.6.2 节 中 ,我 们 介绍 了 MIT 开发 的 Kerberos 认证 系统 ， 它 
已 经 成 为 保护 企业 内 部 网 服务 器 防止 非 授权 访问 和 恶意 攻击 的 工业 标准 。 使 用 Kerberos 方案 认证 客户 
增强 了 NFS 实现 的 安全 性 。 本 小 节 将 介绍 NFS 的 “Kerberos 化 ”实现 〈 它 由 Kerberos 的 设计 者 完成 ) 。 

在 NFS 最 初 的 标准 实现 中 ,用户 标 识 以 非 加 密 的 数字 标识 符 形 式 放 置 在 每 一 个 请 求 中 〈 在 以 后 的 
NFS 版 本 中 ， 这 些 标识 符 可 以 被 加 密 ) NFS 并 没有 采取 其 他 措施 来 检查 客户 标识 符 的 真实 性 。 这 意味 
着 必须 高 度 信任 客户 计算 机 及 其 NFS 软件 的 真实 性 ， 而 Kerberos 和 其 他 基于 认证 的 安全 系统 的 目的 就 
是 尽量 减少 需要 信任 的 组 件 的 范围 。 实 质 上 ， 当 在 “Kerberos 化 ”环境 中 使 用 NFS 时 ， 它 只 能 接收 那 
些 通 过 Kerberos 认证 的 客户 发 出 的 请 求 。 

Kerberos 开发 者 考虑 过 的 一 种 直接 的 解决 方案 是 将 NFS 所 需要 的 凭证 的 本 质 转 变 为 成 熟 的 Kerberos 
票证 和 认证 器 。 但 因为 NFS 是 作为 无 状态 服务 器 的 形式 实现 的 ， 所 以 每 一 个 文件 的 访问 请 求 都 是 按 请 
求 内 容 处 理 的 ， 并 且 每 一 个 请 求 中 必须 包含 认证 数据 。 这 种 设计 是 难以 接受 的 ， 因 为 执行 必要 的 加 密 
所 需 的 时 间 代 价 是 相当 大 的 ， 同 时 在 每 个 工作 站 内 核 中 都 必须 加 和 Kerberos 客户 库 。 

实际 的 系统 采用 了 一 种 混合 的 方法 ， 即 安装 用 户 的 主 文件 集 系统 和 根 文 件 集 系统 时 ， 给 NFS 安装 
服务 器 提供 用 户 所 有 的 Kerberos 认证 数据 。 认 证 结果 包含 用 户 常规 的 数字 标识 符 和 客户 计算 机 的 地 址 ， 
它们 被 保存 在 服务 器 每 个 文件 集 系统 的 安装 信息 中 (尽管 NFS 服务 器 并 没有 保存 与 单个 客户 进程 相关 
的 状态 ， 但 它 还 是 保存 了 每 一 个 客户 计算 机 的 当前 安装 信息 )。 

对 于 每 个 文件 访问 请 求 ，NFS 服务 器 检查 用 户 标识 符 和 发 送 者 的 地 址 ， 仅 当 这 两 者 都 与 存储 在 服 
务 器 中 的 相关 客户 端的 安装 信息 相符 时 ，NFS 服务 器 才 允 许 访 问 。 这 种 混合 的 方法 仅 需要 很 少 的 附加 
开销 ， 而 且 如 果 在 某 一 时 刻 每 一 个 客户 计算 机 上 只 有 一 个 用 户 使 用 时 ， 那 么 它 对 于 大 多 数 形式 的 攻击 
而 言 是 安全 的 。MIT 采用 这 种 方法 设计 其 系统 ， 最 近 ，NFS 实现 将 Kerberos 认证 作为 几 种 认证 选项 之 
一 ， 并 且 建 议 在 运行 Kerberos 服务 器 的 机 器 上 选择 此 选项 。 

性 能 ”由 Sandberg [1987] 报告 的 早期 性 能 图 表 说 明 : 相对 于 访问 存储 在 本 地 磁盘 的 文件 而 言 ， 
使 用 NFS 通常 不 会 导致 性 能 降低 。 他 提出 了 两 个 问题 : 

e 为 了 从 服务 器 获得 时 间 戳 以 进行 缓存 验证 ， 系 统 频 繁 地 使 用 getattr 调用 。 

© 因为 写 透 是 在 服务 器 端 使 用 的 ， 这 导致 了 write 操作 性 能 相对 较 差 。 

他 同时 指出 ， 在 典型 的 UNIX CERP, wite 操作 相对 不 多 (大 约 占 对 服务 器 调用 的 5% ) ， 因 
此 ， 除 了 将 大 文件 写 入 服务 器 这 种 情况 外 ， 写 透 操 作 的 开销 是 可 以 容忍 的 。 他 所 测试 的 NES 的 版 本 并 
不 包含 上 面 所 提 到 的 commit 机 制 ， 而 当前 NFS 版 本 中 的 这 一 机 制 将 明显 提高 写 性 能 。 他 的 结果 也 表 
BA, lookup 操作 大 约 占 服务 器 调用 的 50% 。 这 是 使 用 UNIX 文件 名 语义 所 需 的 一 步 步 的 路 径 名 翻译 方 
法 带 来 的 结果 。 

Sun 和 其 他 NFS 实现 者 使 用 LADDIS [ Keith and Wittle 1993] 这 样 的 基准 程序 集 进行 正规 的 度量 测 
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试 。 现 在 和 过 去 的 一 些 测试 结果 可 以 在 [www. spec. org] 上 找到 ， 其 中 总 结 了 不 同 厂商 的 NFS 实现 和 
不 同 硬件 配置 上 的 性 能 差别 。 基 于 PC 硬件 的 单一 CPU， 以 及 专用 的 操作 系统 实现 能 够 获得 超过 每 秒 
12 000 个 服务 器 操作 的 吞吐 量 ; 而 拥有 多 个 磁盘 和 控制 器 的 大 规模 多 处 理 器 配置 能 够 获得 每 秒 300 000 
个 服务 器 操作 的 吞吐 量 。 这 些 数字 说 明 : 不 管 是 能 够 支持 数 以 百 计 的 软件 工程 师 进 行 开发 的 传统 
UN 长， 还 是 通过 NFS 服务 器 获取 数据 的 Web 服务 器 组 ，NFS 可 以 为 大 多 数 企业 内 部 网 (无论 它 的 规 
模 和 使 用 类 型 ) 的 分 布 式 存储 需求 提供 有 效 的 服务 。 

NFS 小 结 Sun NFS 与 我 们 的 抽象 模型 十 分 相似 。 如 果 NES 的 安装 服务 为 每 个 客户 都 提供 类 似 的 
名 字 空 间 ， 那 么 这 种 设计 便 能 提供 良好 的 位 置 透 明 性 和 访问 透明 性 。NFS 支持 异 构 的 硬件 和 操作 系统 。 
NFS 服务 器 的 实现 是 无 状态 的 ， 它 使 得 客户 和 服务 器 在 出 现 故 障 后 不 需要 任何 恢复 过 程 就 可 以 继续 执 
行 操作 。NFS 不 支持 文件 或 文件 集 系统 的 迁移 ， 除 非 在 将 一 个 文件 集 系 统 移动 到 一 个 新 位 置 后 ， 由 客 
户 手工 干预 ， 重 新 配置 安装 指令 。 

在 每 个 客户 计算 机 上 缓存 文件 块 可 以 大 大 提高 NFS 的 性 能 。 为 了 达到 满意 的 性 能 ， 这 一 点 很 重 
要 ， 但 是 它 导 致 系统 偏离 了 UNIX 严格 的 单个 拷贝 文件 更 新 语义 。 

下 面 是 NFS 其 他 的 设计 目标 以 及 它们 被 实现 的 程度 : 

访问 透明 性 : NFS 的 客户 模块 为 应 用 程序 提供 的 对 本 地 进程 的 接口 与 它 为 本 地 操作 系统 提供 的 接 
口 相同 。 这 样 UNIX 的 客户 可 以 使 用 正常 的 UNIX 系统 调用 来 访问 远程 文件 。 用 户 不 需要 修改 现 有 的 程 
序 就 能 使 这 些 应 用 程序 正确 地 访问 远程 文件 。 

位 置 透 明 性 : 每 个 客户 通过 将 一 个 已 安装 的 远程 文件 集 系统 的 目录 加 和 自己 的 本 地 名 字 空 间 来 建 
立 一 个 文件 名 空间 。 如 果 客 户 进程 要 访问 一 个 远程 文件 系统 ， 那 么 包含 远程 文件 系统 的 计算 机 结 点 必 
须 导 出 该 文件 系统 ， 并 且 客 户 在 使 用 前 必须 远程 安装 该 文件 系统 (参见 图 12- 10) 。 远 程 安装 的 文件 系 
统 出 现 的 客户 名 字 层 次 上 的 地 点 由 客户 自己 决定 ， 因 此 NFS 并 没有 强制 实现 一 个 网 络 范围 的 文件 名 字 
空间 一 一 每 个 客户 看 到 的 远程 文件 集 系统 都 是 本 地 定义 的 ， 同 一 远程 文件 在 不 同 的 客户 上 可 能 有 不 同 
的 路 径 名 ， 为 了 实现 位 置 透明 性 ， 客 户 可 以 根据 恰当 的 配置 表 来 建立 统一 的 名 字 空 间 。 

移动 透明 性 : 文件 集 系统 〈 在 UNIX 中 ， 它 是 文件 树 的 子 树 ) 可 以 在 服务 器 之 间 移 动 ， 但 为 了 使 
客户 能 访问 在 新 位 置 上 的 文件 集 系统 ， 要 分 别 更 新 每 一 个 客户 上 的 远程 安装 表 ， 所 以 NFS 不 能 完全 达 
到 迁移 透明 性 。 

可 伸缩 性 : 已 经 发 表 的 性 能 数据 表明 ，NFS 服务 器 可 以 以 一 种 比较 有 效 、 高 性 价 比 的 方式 处 理 现 
实 工作 环境 中 的 大 量 负载 。 通 过 增加 处 理 器 、 磁 盘 和 控制 器 ， 单 个 服务 器 上 的 性 能 会 提高 。 但 达到 处 
理 极 限时 ， 必 须 加 入 新 的 服务 器 ， 同 时 在 服务 器 疗 重新 分 配 文件 集 系 统 。 这 种 策略 的 效率 受 “ 热 点 ” 
文件 的 限制 , “热点 ”文件 是 指 被 频繁 访问 从 而 导致 服务 器 达到 性 能 极限 的 文件 。 若 负载 超过 了 这 种 
策略 可 提供 的 最 大 性 能 ， 分 布 式 文件 系统 可 提供 更 好 的 解决 方案 ， 例 如 可 以 使 用 支持 复制 可 更 新 文件 
的 分 布 式 文件 系统 (如 Coda， 见 第 18 Æ), RER AFS 这 样 通过 缓存 整个 文件 减少 协议 通信 量 的 软 
件 。 我 们 将 在 12. 5 节 介绍 实现 伸缩 性 的 其 他 方法 。 

文件 复制 ， 只 读 文件 可 以 复制 到 多 个 NFS 服务 器 上 ， 但 NFS 不 支持 具有 更 新 的 文件 的 复制 。Sun 
网 络 信息 服 务 (NIS) 是 一 个 可 与 NFS 一 起 使 用 的 服务 ， 它 支持 以 键 - 值 对 形式 组 织 的 简单 数据 库 的 
复制 (例如 ，UNIX 的 系统 文件 /ete/passwd 和 /etc/hosts) 。 它 根据 一 个 简单 的 主 -从 复制 模型 《或 者 叫 
主 拷贝 模 型 ， 将 在 第 18 章 讨论 ， 该 模型 在 每 个 场地 上 提供 部 分 或 全 部 数据 库 的 副本 ) 来 管理 分 布 式 更 
新 和 对 复制 文件 的 访问 。NIS 为 不 经 常 变化 的 系统 信息 提供 了 一 个 共享 库 ， 并 且 它 不 要 求 所 有 的 更 新 
同步 进行 。 

硬件 和 操作 系统 的 出 构 性 :几乎 在 所 有 已 知 的 操作 系统 和 硬件 平台 上 都 实现 了 NFS， 有 许多 文件 
系统 支持 NFS。 

容错 : NES 文件 访问 协议 的 无 状态 和 吞 等 性 本 质 确保 在 访问 远程 文件 时 客户 发 现 的 故障 模式 与 访 
间 本 地 文件 时 发 生 的 故障 模式 类 似 。 当 服务 器 失效 后 ， 它 提供 的 服务 会 挂 起 ， 直 到 服务 器 重启 为 止 ， 
一 旦 服务 器 重启 ， 用 户 级 客户 进程 就 可 以 从 服务 中 断 的 那 一 点 继续 执行 ， 它 不 需要 了 解 服务 器 出 了 什 
么 故障 (访问 软 安装 的 远程 文件 系统 除外 )。 实 际 上 ， 在 大 多 数 情 况 下 系统 使 用 的 是 硬 安装 ， 并 且 它 
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阻止 让 应 用 程序 处 理 服务 器 故障 。 

客户 计算 机 或 客户 的 用 户 级 进程 的 故障 不 会 影响 它 使 用 的 服务 器 ， 因 为 服务 器 不 存储 代表 客户 状 
态 的 任何 信息 。 

一 致 性 : 我 们 已 经 比较 详细 地 描述 了 更 新 行为 。 它 提供 的 语义 近似 于 单个 拷贝 语义 ， 它 能 满足 大 多 数 
应 用 程序 的 要 求 ， 但 我 们 不 推荐 将 NFS 提供 的 文件 共享 用 于 通信 或 在 不 同 计算 机 进程 之 间 的 紧密 协作 。 

安全 性 ， 当 将 企业 内 部 网 连接 到 互联 网 上 时 ,对 NFS 提出 了 安全 性 要 求 。NFS 与 Kerberos 的 结合 
是 一 个 巨大 的 进步 。 最 近 还 有 一 些 进展 ， 例 如 提供 安全 RPC 实现 (RPCSEC_GSS， 见 RFC 2203 [Eisler 
et al. 1997] ) ， 用 于 认证 和 在 读 写 数据 时 提供 传输 数据 的 私密 性 和 安全 性 。 许 多 安装 还 没有 使 用 这 些 安 
全 性 机 制 ， 因 此 它们 是 不 安全 的 。 

效率 ; JLA NFS 实现 的 性 能 度量 和 NFS 在 大 负载 的 环境 的 广泛 使 用 ， 都 说 明 NFS 协议 实现 具有 较 
高 的 效率 。 


12.4 实例 研究 Andrew 文件 系统 
和 NFS —RE, AFS 为 直行 在 工作 站 十 的 .UNIX 程序 提供 了 对 远程 共享 文件 的 透明 访问 。 可 以 用 正 
常 的 UNIX 文件 原 语 访问 AFS 文件 ， 使 现 有 的 UNIX 程序 可 以 不 经 过 修改 或 重 编译 就 可 以 访问 AFS 文 
件 。AFS 和 NFS 是 兼容 的 ，AFS 服务 器 拥有 “本 地 ”UNIX 文件 ,但 在 服务 器 上 的 文件 系统 是 基于 NFS 
的 ， 这 样 它 使 用 NFS 风格 的 文件 句柄 而 不 是 i 结 点 来 引用 文件 ， 并 和 且 可 通过 NFS 远程 访问 文件 。 
AFS 主要 在 设计 和 实现 方面 与 NFS 有 区 别 。 区 别 主 要 在 于 可 伸缩 性 这 一 重要 的 设计 目标 。 相 对 于 
其 他 分 布 式 文件 系统 而 言 ，AFS 用 来 满足 更 多 活动 用 户 使 用 的 需要 。AFS 实现 可 伸缩 性 的 关键 策略 是 
在 客户 结 点 上 缓存 整个 文件 。AFS 有 两 个 设计 特点 : 
。 整体 文件 服务 : AFS 服务 器 将 整个 文件 和 目录 的 内 容 都 传输 到 客户 计算 机 上 〈 在 AFS-3 H, 大 
于 64KB 的 文件 以 64KB 文件 块 的 形式 传输 ) 。 
。 整体 文件 缓存 ， 当 一 个 文件 或 文件 块 的 拷贝 被 传输 到 客户 计算 机 上 时 ， 它 被 存储 到 本 地 磁盘 的 
缓存 中 。 该 缓存 包含 该 计算 机 最 常用 的 数 百 个 文件 。 该 缓存 是 持久 的 ， 不 会 随 客户 计算 机 的 重 
启 而 丢失 缓存 内 容 。 文 件 的 本 地 拷贝 用 于 满足 客户 访问 远程 文件 找 贝 的 open 请 求 。 
SE 下 面 是 一 个 简单 的 场景 ， 用 于 说 明 AFS 操作 : 
s 当 一 个 客户 计算 机 上 的 用 户 进程 向 共享 文件 空间 内 的 一 个 文件 发 出 open 系统 调用 ， 并 且 这 一 
文件 的 当前 副本 不 在 本 地 缓存 上 时 ，AFS 查找 文件 所 在 的 服务 器 ， 并 向 其 请 求 传输 此 文件 的 一 
个 副本 。 
。 传输 来 的 文件 拷贝 存储 在 客户 计算 机 的 本 地 UNIX 文件 系统 中 。 该 文件 拷贝 被 打开 ， 相 应 的 
UNIX 文件 描述 符 被 返回 给 客户 。 
。 客户 计算 机 上 的 进程 在 此 本 地 文件 拷贝 上 进行 一 系列 read, write 和 其 他 操作 。 
© 当 客户 进程 发 出 一 个 close 系统 调用 时 ,如 果 本 地 的 文件 拷贝 的 内 容 已 经 改变 ， 则 该 文件 就 被 
传 回 服务 器 。 服 务 器 更 新 此 文件 的 内 容 和 时 间 稚 。 客 户 本 地 磁盘 上 的 拷贝 一 直 被 保留 ， 以 供 在 
同一 工作 站 上 的 用 户 级 进程 下 一 次 使 用 。 
下 面 我 们 将 讨论 APS 的 性 能 ， 但 我 们 只 能 根据 上 面 提 到 的 AFS 的 设计 特点 来 粗略 地 观察 和 预测 其 性 能 ， 
。 对 于 那些 不 常 更 新 的 共享 文件 (例如 那些 包含 UNIX 命令 和 库 的 代码 的 文件 ) 和 那些 通常 只 有 
一 个 用 户 访问 的 文件 (例如 在 用 户 的 主 目 录 及 其 子 目 录 中 的 文件 ) ， 本 地 缓存 的 找 由 可 以 在 相 
当 长 的 时 间 内 保持 有 效 一 一 在 第 一 种 情况 中 ， 是 因为 文件 不 被 更 新 ; 在 第 二 种 情况 中 ， 是 因为 
如 果 文 件 被 更 新 ， 更 新 的 文件 拷贝 会 被 保存 在 用 户 自己 的 工作 站 缓存 中 。 这 两 种 类 型 的 文件 占 
被 访问 文件 总 数 的 绝 大 部 分 。 
本 地 缓存 可 以 获得 每 个 工作 站 的 磁盘 空间 上 相当 大 的 空间 ， 例 如 100MB。 通 常 ， 对 于 一 个 用 户 
使 用 的 工作 文件 集 来 说 ， 这 一 空间 是 足够 大 的 。 为 文件 工作 集 提供 足够 的 绥 存 空间 ， 可 以 保证 
在 给 定 工作 站 上 常规 使 用 的 文件 存储 在 缓存 里 以 便 下 次 使 用 。 


。 设计 策略 基于 一 些 假设 ， 这 些 假设 包括 UNIX 系统 中 文件 的 平均 大 小 、 最 大 文件 大 小 以 及 文件 
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引用 的 地 域 性 。 这 些 假设 是 通过 观察 学 术 和 其 他 环境 中 的 一 些 典型 的 UNIX 负载 得 到 的 [ Saty- 
anarayanan 1981; Ousterhout et al. 1985; Floyd 1986 ] 。 其 中 最 重要 的 结果 包括 : 
一 通常 文件 比较 小 ， 大 多 数 文件 小 于 10KB。 
一 文件 的 读 操 作 比 写 操作 更 常用 〈 通 常 是 6 倍 以 上 ) 。 
一 顺序 访问 更 常用 ， 随 机 访问 不 常用 。 
一 大 多 数 文件 只 由 一 个 用 户 读 写 。 当 文件 被 共享 时 ， 通 常 只 有 一 个 用 户 修改 它 。 
一 文件 引用 是 爆发 性 的 。 如 果 一 个 文件 最 近 被 引用 ， 那 么 很 有 可 能 在 不 久 的 将 来 被 再 次 引用 。 
上 述 观察 结论 可 用 于 指导 AFS 的 设计 和 优化 ， 而 不 是 限制 用 户 可 用 的 功能 。 
。 对 于 上 面 第 一 点 所 提 到 的 文件 类 型 ，AFS 能 很 好 地 运行 。 还 有 一 种 重要 的 文件 类 型 ， 它 不 属于 
上 上 述 文件 类 型 一 一 数据 库 通 常 许多 用 户 共享 ， 并 且 频 繁 地 更 新 。AFS 的 设计 者 已 经 明确 地 从 设 
计 目 标 中 排除 了 数据 库 的 存储 功能 ， 他 们 认为 由 于 不 同 的 命名 结构 具有 的 约束 〈 即 基于 内 容 的 
访问 ) 以 及 对 细 粒 度数 据 访问 、 并 发 控制 、 更 新 原子 性 的 需要 ， 造 成 设计 一 个 分 布 式 数 据 库 
( 它 也 是 一 个 分 布 式 文件 系统 ) 是 比较 困难 的 。 他 们 认为 应 该 单独 考虑 分 布 式 数据 库 的 功能 
[ Satyanarayanan 1989a ] 。 
12.4.1 实现 


上 面 的 场景 介绍 了 AFS 的 操作 ， 但 留 下 许多 有 关 其 实现 的 问题 。 其 中 最 重要 的 问题 包括 : 
© 当 客 户 对 共享 文件 空间 中 的 文件 发 出 open 或 close 系统 调用 时 ，AFS 怎样 获得 控制 ? 
。 如 何 定位 包含 所 需 文件 的 服务 器 ? 
。 在 工作 站 上 如 何 为 缓存 文件 分 配 存 储 空间 ? 
0 当 文 件 可 能 被 多 个 客户 更 新 时 ，AFS 怎样 保证 缓存 中 的 文件 拷贝 是 最 新 的 ? 
下 面 将 回答 这 些 问 题 。 
AFS 由 两 个 软件 组 件 实现 ， 这 两 个 软件 组 件 作 为 两 个 UNIX 进程 Vice 和 Venus 存在 。 图 12-11 给 出 
了 Vice 和 Venus 进程 的 分 布 。Vice 是 服务 器 软件 的 名 字 ， 它 是 运行 在 每 个 服务 器 计算 机 上 的 用 户 级 
UNIX 进程 ;Venus 是 运行 在 客户 计算 机 上 的 用 户 级 进程 ， 相 当 于 我 们 给 出 的 抽象 模型 中 的 客户 模块 。 
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图 12-11 在 Andrew 文件 系统 中 的 进程 分 布 


可 用 于 运行 在 工作 站 上 的 用 户 进程 的 文件 是 本 地 的 或 共享 的 。 本 地 文件 可 作为 普通 的 UNIX 文件 
来 处 理 ， 它 们 被 存储 在 工作 站 磁盘 上 ， 只 有 本 地 用 户 进程 可 以 访问 它 。 共 享 文件 存储 在 服务 器 上 ， 工 
作 站 在 本 地 磁盘 上 缓存 它们 的 拷贝 。 图 12-12 显示 了 用 户 进程 所 看 到 的 名 字 空 间 。 它 是 一 个 传统 的 
UNIX 目录 层次 结构 ， 其 中 有 一 个 包含 所 有 共享 文件 的 子 树 〈 称 为 cmu) 。 将 文件 名 空间 划分 为 本 地 文 
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件 和 共享 文件 会 丧失 一 部 分 位 置 透明 性 ， 但 除了 系统 管理 员 以 外 ， 一 般 的 用 户 很 难 注意 到 这 一 点 。 本 
地 文件 仅 作为 临时 文件 〈/tmp) ， 或 者 供 工作 站 启动 进程 使 用 。 其 他 标准 的 UNIX 文件 (例如 那些 通常 
在 /bin、/lb 目录 下 的 文件 ) 实际 上 是 通过 将 本 地 文件 目录 中 的 文件 符号 链接 到 共享 文件 空间 这 种 方 
式 实现 的 。 用 户 目录 被 放 在 共享 空间 中 ， 这 使 得 用 户 可 以 从 任意 一 个 工作 站 访问 他 们 的 文件 。 

本 地 共享 


/ (root) 


符号 链接 


图 12-12 AFS 的 客户 所 看 到 的 文件 名 空间 


工作 站 和 服务 器 上 的 UNIX 内 核 是 BSD UNIX 的 修改 版 本 。 修 改 的 部 分 主要 是 截获 那些 指向 共享 名 
字 空 间 中 文件 的 调用 ， 例 如 open, close 和 其 他 一 些 文件 系统 调用 ， 并 将 它们 传递 给 客户 计算 机 上 的 
Venus 进程 处 理 (参见 图 12-13 ) 。 对 内 核 的 另外 一 个 修改 是 基于 性 能 的 考虑 ， 将 在 后 面 介绍 。 
工作 站 


用 户 
oe UNIX 文 件 非 本 地 
系统 调用 文件 操作 
UNIX 内 核 
UNIX 文 件 系 统 


图 12-13 AFS 中 系统 调用 拦截 


每 个 工作 站 的 本 地 磁盘 上 都 有 一 个 文件 分 区 被 用 作文 件 的 缓存 ， 保 存 共享 空间 中 的 文件 拷贝 。 
Venus 进程 管理 这 一 缓存 。 当 文件 分 区 已 满 ， 并 且 有 一 个 新 的 文件 需要 从 服务 器 拷贝 过 来 时 ， 它 将 最 近 
最 少 使 用 的 文件 从 缓存 中 删除 。 通 常 ， 这 些 工 作 站 缓存 都 足够 大 ， 可 以 容纳 数 百 个 一 般 大 小 的 文件 ， 
这 样 ， 当 客户 缓存 已 经 包含 了 当前 用 户 文件 和 经 常 使 用 的 系统 文件 时 ， 工 作 站 可 以 基本 独立 于 Vice 服 
务 器 工作 。 

AFS 和 12. 2 节 描 述 的 抽象 文件 服务 模型 在 下 列 方面 很 相似 : 

© Vice 服务 器 实现 了 平面 文件 服务 ， 工 作 站 上 的 Venus 进程 实现 了 UNIX 用 户 程 序 所 需 的 层次 目 


Venus 














录 结 构 。 
”。 共享 文件 空间 中 的 每 一 个 文件 和 目录 是 由 类 似 于 UFD 的 唯一 的 96 位 的 文件 标识 符 (fid) 标 s4 
” ， 识 的 。Venus 进程 将 客户 使 用 的 文件 路 径 名 车 译 为 fid。 551 


文件 可 以 聚集 成 卷 以 便 存储 和 移动 。 卷 通常 比 UNIX 的 文件 集 系统 小 一 些 ， 卷 是 NFS 中 的 文件 分 
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组 的 单位 。 例 如 ， 每 个 用 户 的 个 人 文件 通常 位 于 独立 的 卷 中 。 其 他 卷 用 来 存储 系统 二 进 制 文件 、 文 档 
和 库 代码 。 

fid 的 表示 包括 文件 所 在 卷 的 卷 号 (类比: UFID 中 的 文件 组 标识 ) 、 用 来 标识 卷 中 文件 的 NFS 文件 
句柄 (类 比 : UFD 中 的 文件 号 ) 以 及 保证 此 文件 标识 不 被 重用 的 唯一 标识 : 

32 位 . 32 位 32 位 
| 卷 号 | 文件 句柄 | 唯一 标识 | 

用 户 程序 使 用 传统 的 UNIX 文件 路 径 名 来 引用 文件 ,但 AFS 在 Venus 和 Vice 进程 之 间 通 信 中 使 用 
fid。Vice 服务 器 只 接收 用 fid 表示 的 文件 请 求 。 因 此 ，Venus 要 将 客户 提供 的 路 径 名 翻译 为 fd， 这 是 由 
Venus 通过 一 步 步 地 在 Vice 服务 器 的 文件 目录 中 查找 信息 而 实现 的 。 

图 12-14 描述 了 当 一 个 用 户 进程 发 出 上 面 场景 提 到 的 系统 调用 时 ，Vice、Venus 和 UNIX 内 核 采 取 
的 动作 。 这 里 所 说 的 回调 承诺 是 一 种 保证 机 制 ， 用 于 保证 当 其 他 客户 关闭 更 新 后 的 共享 文件 时 ， 本 地 
缓存 中 的 此 文件 拷贝 也 被 更 新 。 下 节 将 讨论 该 机 制 。 










































用 户 进程 UNIX 内 核 Venus a Vice 
如 果 FileName 指 向 | ”在 本 地 缓存 中 检查 
共享 文件 空间 内 的 一 | 文件 列表 ， 如 果 文 件 
个 文件 ， 那 么 将 这 一 | 不 在 其 中 或 者 没有 合 
请 求 传 给 Venus 法 的 回调 承诺 ， 那 么 
向 管理 包含 此 文件 的 
卷 的 Vice 服 务 器 发 送 
open (FileName,mode) 一 个 请 求 ras ve 
个 回调 承诺 记录 该 
打开 本 地 文件 并 | ”在 本 地 文件 系统 中 回调 承诺 
向 应 用 程序 返回 其 | 放置 文件 的 副本 ， 并 
文件 描述 符 在 本 地 缓存 列表 中 输 
入 本 地 名 字 ， 同 时 向 
UNIX 返 回 其 本 地 名 字 
read (FileDescriptor, NER MUN 
Buffer,Length > [a 操作 
. . . 在 本 地 副本 上 执 
write (FileDescriptor, 一 
Buffer, Length) weet 
关闭 本 地 副本 并 | 如果 本 地 副本 被 修 替换 此 文件 的 内 
close (FileDescriptor) | 通知 Venus， 此 文件 | 改 ， 向 管理 此 文件 的 容 并 向 拥有 此 文件 
已 经 被 关闭 Vioe 服 务 器 发 送 此 副本 回调 承诺 的 其 他 客 
户 端 发 送 回 调 




















图 12-14 ARS 中 文件 系统 调用 的 实现 


12.4.2 缓存 的 一 致 性 


当 Vice 为 Venus 进程 提供 文件 拷贝 时 ， 它 同时 提供 了 一 个 回调 承诺 一 一 由 管理 该 文件 的 Vice 服务 器 发 
送 的 一 种 标识 ， 用 于 保证 当 其 他 客户 修改 此 文件 时 通知 Venus 进程 。 回 调 承 诺 和 被 缓存 的 文件 一 起 存储 在 工 
作 站 磁盘 上 ， 它 有 两 种 状态 : 有 效 或 取消 。 当 服务 器 执行 一 个 更 新 文件 请 求 时 ， 它 会 通知 它 发 送 过 回调 承诺 
的 所 有 Venus 进程 ， 其 方式 是 向 每 一 个 进程 发 送 -- 个 回调 ， 回 调 是 从 服务 器 到 Venus 进程 的 一 种 远程 过 程 调 
用 。 当 Venus 进程 接收 到 回调 时 ， 它 将 相关 文件 的 回调 承诺 标识 设置 为 取消 状态 。 

当 Venus 处 理 客 户 的 open 请 求 时 ， 它 首先 检查 其 缓存 。 如 果 所 需 的 文件 在 缓存 中 ， 它 便 检查 其 标 
识 。 如 果 标 识 的 值 是 取消 ， 那 么 必须 从 Vice 服务 器 取得 文件 的 最 新 揽 贝 ;! 如 果 它 的 值 是 有 效 ， 那 么 
Venus 不 需要 引用 Vice 就 可 以 打开 和 使 用 缓存 中 的 文件 拷贝 。 

当 工 作 站 因为 故障 或 关机 而 重启 时 ，Venus 要 在 本 地 磁盘 上 保留 尽 可 能 多 的 缓存 文件 ， 但 它 不 能 
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肯定 回调 承诺 标识 是 正确 的 ， 因 为 一 些 回 调 可 能 已 经 丢失 了 。 因 此 ， 在 重启 后 第 一 次 使 用 缓存 文件 或 
目录 之 前 ，Venus 要 生成 一 个 缓存 有 效 性 请 求 发 给 管理 该 文件 的 服务 器 ， 该 请 求 包 含 文件 修改 时 间 戳 。 
如 果 其 时 间 惟 是 当前 的 ， 服 务 器 就 应 管 一 个 有 效 信息 ， 其 标识 值 被 恢复 。 如 果 时 间 惟 显示 该 文件 是 过 
期 的 ,那么 服务 器 便 应 答 一 个 取消 信息 ， 其 标识 就 被 设置 为 取消 状态 。 在 打开 文件 之 前 ， 如 果 从 文件 
被 缓存 开始 已 经 有 了 时 间 (通常 为 几 分 钟 ) 没有 和 服务 器 通信 了 ,那么 回调 必须 被 更 新 。 这 样 可 以 处 
理 可 能 的 通信 故障 ， 因 为 通信 故障 可 能 导致 回调 信息 的 丢失 。 

相对 于 采用 了 和 NFS 相似 的 基于 时 间 戳 机 制 的 原型 (AFS-1) 方法 而 言 ， 这 种 维持 缓存 一 致 性 的 
基于 回调 的 机 制 可 以 提供 更 大 的 可 伸缩 性 。 在 AFS-1 中 ， 拥 有 缓存 文件 拷 册 的 Venus 进程 进行 open 操 
作 时 会 询问 Vice 进程 ， 以 便 判 定 本 地 拷贝 上 的 时 间 惟 和 服务 器 上 的 时 间 截 是 否 相符 。 基于 回调 的 方法 
具有 更 大 的 可 伸缩 性 ， 因 为 它 只 在 文件 被 更 新 时 才 产 生 客户 和 服务 器 的 通信 以 及 服务 器 上 的 活动 ， 而 
时 间 惟 方法 会 在 每 一 个 open 操作 时 都 产生 客户 和 服务 器 的 通信 ， 即 使 本 地 有 有 效 的 拷贝 。 因 为 绝 大 多 
数 文件 都 不 会 被 并 发 访问 ， 同 时 在 大 多 数 应 用 中 ，read 操作 比 write 操作 多 得 多 ， 回 调 机 制 使 客户 和 服 
务 器 的 交互 量 大 大 减少 。 

与 AFS-1、NFS 和 我 们 的 文件 服务 模型 不 同 ，AFS-2 和 其 后 的 AFS 版 本 使 用 的 回调 机 制 要 求 Vice 
服务 器 维护 一 些 Venus 客户 的 状态 信息 。 这 些 与 客户 有 关 的 状态 信息 包含 发 送 过 回调 承诺 的 Venus 进 
程 列 表 。 这 一 回调 列表 应 在 服务 器 故障 时 也 被 保留 一 一 它们 被 保存 在 服务 器 磁盘 上 ， 同 时 系统 对 它们 
使 用 原子 性 更 新 加 以 操作 。 

图 12-15 显示 了 AFS 服务 器 提供 的 用 于 文件 操作 的 RPC 调用 (也 就 是 AFS 服务 器 为 Venus 进程 提 
供 的 接口 ) 。 








Fetch (fid) 一 attudata 返回 用 fid 标 识 的 文件 属性 《状态 ) 和 文件 内 容 《〈 可 选 ) ， 辣 时 
记录 一 个 回调 承诺 


Store (fid,attr,data) 更 新 指定 文件 的 属性 和 文件 内 容 〈 可 选 ) 
Create 0 一 :fid 创建 一 个 新 文件 并 记录 一 个 回调 承诺 
Remove (fid) 删除 指定 的 文件 


SetLock (fid,mode) 为 指定 的 文件 或 目录 加 锁 ， 锁 的 模式 可 以 是 共享 锁 或 排他 锁 。 
在 30min 后 ， 没 有 解除 的 锁 视 为 过 期 


ReleaseLock (fid) 为 指定 的 文件 或 目录 解锁 

RemoveCallback (fid) 通知 服务 器 一 个 Venus 进程 已 经 将 文件 更 新 

BreakCallback (fid) Vice 服 务 器 对 Venus 进程 发 出 调用 。 它 取消 相关 文件 上 的 回调 
承诺 











注 : 图 中 没有 显示 目录 和 管理 操作 (Rename、Link、Makedir、Removedir、GetTime、 
CheckToken 等 ) 。 


图 12-15 Vice 服务 接口 的 主要 组 件 


更 新 语义 ”缓存 一 致 性 机 制 的 目标 是 : 在 不 对 性 能 产生 严重 影响 的 情况 下 ， 近 似 实 现 单个 拷贝 文 
件 语义 。UNIX 文件 访问 原 语 的 单个 拷贝 语义 的 严格 实现 要 求 对 每 一 个 文件 进行 write 操作 时 ， 其 结果 
必须 在 发 生 进 一 步 访问 操作 之 前 发 送 到 所 有 在 缓存 中 包含 此 文件 的 计算 机 上 。 在 规模 较 大 的 系统 中 ， 
这 是 不 可 行 的 ， 而 回调 承诺 机 制 维护 了 一 种 对 单个 找 册 语义 的 较 好 的 近似 实现 。 

对 AFS-1 来 说 ， 可 以 用 很 简单 的 方法 形式 化 表示 它 的 更 新 语义 。 若 客户 C 操作 服务 器 S 管理 的 文 
EF, 拷贝 的 传播 要 保证 满足 以 下 条 件 ; 

© 在 成 功 的 open 操作 后 : latest (F, S) 

。 在 失败 的 open 操作 后 : failure (5) 

e 在 成 功 的 close 操作 后 : updated (F, S) 

© 在 失败 的 close 操作 后 : failure (S) 

HH, latest(F, S) 表示 文件 下 在 客户 C 的 当前 值 和 在 客户 S$ 上 的 值 相同 ; foilure(S) 表示 open 
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和 close 操作 并 没有 在 S 上 执行 (故障 可 以 被 客户 C 检测 到 ) ， 同 时 updated(F, S) 表示 客户 C 的 文件 


F 的 值 已 经 传播 到 服务 器 S 上 。 

对 AFS-2 ii, Xt open 操作 的 传播 保证 相对 要 弱 一 些 ， 同 时 相应 的 形式 化 表示 要 复杂 一 些 。 这 是 
因为 客户 可 能 会 打开 一 个 旧 的 拷贝 ， 而 该 文件 已 被 其 他 客户 更 新 过 了 。 当 因为 网 络 故 障 等 原因 ， 回 调 
信息 丢失 时 ， 这 种 情况 就 有 可 能 发 生 。 但 系统 设置 了 一 个 客户 不 知道 文件 最 新 版 的 最 大 时 间 7。 因 此 ， 
我 们 有 下 列 保 证 : 

在 成 功 的 open 操作 后 : latest (F, S, 0) 

or (lostCallback (S, T) and inCache (F) and latest (F, S, T)) 

HH, latest(F, S, T) 表示 客户 所 见 到 的 FF 的 文件 拷贝 的 过 期 时 间 不 会 超过 T,, lostCallback(S, 
T) 表示 在 最 近 的 7 时间 内 从 5 传递 到 C 的 回调 信息 已 经 丢失 了 ，inCache (下 ) 表示 在 open 操作 前 客户 
C 的 缓存 中 就 包含 文件 。 以 上 这 些 形式 化 表示 说 明 : 或 者 在 open 操作 后 客户 CRAXI F AI 
是 系统 中 的 最 新 版 本 ,或 者 回调 信息 被 丢失 (因为 通信 故障 ) 而 不 得 不 使 用 已 在 缓存 中 的 文件 版 本 ， 
二 者 必 居 其 一 ; 被 缓存 的 文件 五 的 拷贝 的 过 期 时 间 不 会 超过 了 秒 。( 了 是 一 个 系统 常量 ， 它 表示 回调 承 
诺 必须 被 更 新 的 时 间 间 隔 。 在 大 多 数 的 系统 安装 中 ，7 的 值 被 设置 为 10min。) 

为 了 实现 这 一 目标 ， 即 提供 大 范围 的 与 UNIX 兼容 的 分 布 式 文件 服务 ，AFS 并 没有 提供 进一步 的 
控制 并 发 更 新 的 机 制 。 上 述 缓存 一 致 性 算法 只 在 open 操作 和 close 操作 中 起 作用 。 一 旦 文件 被 打开 ， 
客户 可 以 在 不 知道 其 他 工作 站 进程 的 情况 下 以 任意 方式 访问 和 更 新 本 地 拷贝 。 当 文件 被 关闭 后 ， 将 文 
{FS SURE BURSA, DRS SATA 

如 果 在 不 同 工 作 站 上 的 客户 对 同一 文件 并 发 执行 open、write 和 close 操作 ， 除 了 最 后 close 操作 的 
更 新 结果 外 ， 其 他 更 新 结果 通常 会 丢失 (没有 报错 ) 。 如 果 客 户 要 实现 并 发 ， 那么 必须 独立 实现 并 发 
控制 。 另 一 方面 ， 当 同一 工作 站 上 的 两 个 客户 进程 打开 一 个 文件 时 ， 它 们 共享 同一 个 缓存 文件 拷贝 ， 
并 且 依 照 UNIX 方式 (一 块 接 一 块 ) 更 新 文件 。 

尽管 更 新 语义 随 并 发 进程 访问 文件 的 位 置 不 同 而 不 同 ， 并且 和 标准 的 UNIX 文件 系统 提供 的 语义 
并 不 完全 相同 ,但 它 已 经 足以 使 大 部 分 已 有 的 UNIX 程序 正确 运行 了 。 


12.4.3 ”其 他 方面 


AFS 引入 了 几 个 我 们 重点 强调 的 有 趣 的 设计 开发 和 改进 ， 还 对 它们 性 能 的 估计 结果 做 了 总 结 : 

UNIX 内 核 修 改 ”我 们 注意 到 ，Vice 服务 器 是 运行 在 服务 器 上 的 用 户 级 进程 ， 并 且 服 务 器 主机 专 
用 于 提供 AFS 服务 。AFS 主机 中 的 UNIX 内 核 被 修改 过 ， 这 样 Vice 可 以 用 文件 句柄 而 不 是 UNIX 文件 
描述 符 执行 文件 操作 。 这 是 AFS 唯一 需要 的 内 核 修 改 。 如 果 Vice 不 维护 任何 客户 状态 (如 文件 描述 
符 ) ， 这 种 修改 是 必须 的 。 

位 置 数据 库 每 一 个 服务 器 包含 一 个 位 置 数据 库 的 拷贝 ， 用 于 将 卷 名 映射 到 服务 器 。 当 一 -个 卷 被 
移动 后 ， 该 数据 库 会 出 现 暂 时 的 不 精确 ， 但 这 是 无 害 的 ， 因 为 新 的 信息 存储 在 此 卷 被 移动 前 所 在 的 服 
务 器 上 。 

线程 Vice 和 Venus 的 实现 使 用 非 预先 抢占 性 线程 包 ， 使 客户 〈 其 中 数 个 用 户 进 程 可 能 同时 访问 
文件 ) 和 服务 器 能 并 行 地 处 理 请 求 。 在 客户 端 ， 描 述 缓存 内 容 和 文件 卷 数据 库 的 表 被 存放 在 内 存 中 ， 
供 Venus 线程 共享 。 

RESH ”经 常 执行 读 操作 但 很 少 被 修改 的 文件 卷 ， 例 如 UNIX 包含 系统 命令 的 /bin 和 /usr/bin H 
录 和 包含 手册 信息 的 /man 目录 ， 可 以 作为 只 读 卷 拷贝 到 多 个 服务 器 上 。 这 样 ， 系 统 中 只 存在 一 个 读 - 
写 拷 贝 ， 所 有 的 更 新 都 放 在 此 拷贝 上 。 在 更 新 操作 后 ， 由 一 个 显 式 的 操作 过 程 将 改变 传播 到 每 个 只 读 
拷贝 上 。 在 位 置 数据 库 中 ， 对 于 被 复制 的 卷 的 位 置 数据 库 ， 其 条 目 是 一 对 多 的 形式 ， 并 且 可 根据 服务 
器 负载 和 访问 能 力 为 每 一 个 客户 请 求 选择 服务 器 。 

批量 传输 AFS 以 64KB 的 文件 块 形 式 在 客户 和 服务 器 之 间 传 输 文件 。 使 用 大 的 数据 包 有 助 于 减 
少 网 络 延 迟 、 提 高 性 能 。 这 样 ，AFS 的 设计 可 以 优化 对 网 络 的 使 用 。 

部 分 文件 缓存 ” 当 应 用 程序 只 需要 读 文 件 的 一 小 部 分 时 仍然 将 整个 文件 传输 到 客户 端 ， 这 种 方式 
显然 是 低 效 率 的 。AFS v3 解决 了 这 个 问题 ， 在 保留 了 AFS 协议 的 一 致 性 语义 和 其 他 特征 的 同时 ， 人 允许 
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文件 数据 以 64KB 块 的 形式 传输 以 及 缓存 。 

性 能 ”AFS 的 主要 目标 是 实现 可 伸缩 性 ， 所 以 它 特 别 关 心 在 大 量 用 户 环 境 中 的 性 能 。Howard 等 人 
[1988] 详细 介绍 了 性 能 比较 度量 结果 ， 它 使 用 了 专门 的 AFS 基准 测试 ， 该 基准 测试 后 来 被 广泛 应 用 
于 分 布 式 文件 系统 的 度量 。 不 出 所 料 ， 缓 存 整 个 文件 和 回调 协议 极 大 减少 了 服务 器 的 负载 。Saty- 
anarayanan [1989a] 解释 说 ， 在 运行 标准 基准 测试 的 具有 18 个 客户 结 点 的 系统 中 ,服务 器 的 负载 是 
40% ， 而 在 运行 同样 基准 测试 的 NFS 系统 中 ， 服 务 器 的 负载 是 100% 。Satyanarayanan 将 性 能 的 提高 归 
DIF AFS 使 用 回调 来 通知 客户 文件 更 新 以 减少 服务 器 负载 的 方式 ， 而 在 NFS 中 ， 系 统 采用 超时 机 制 检 
查 缓存 在 客户 端的 页 面 的 有 效 性 。 

广 域 支持 AFS v3 支持 多 个 管理 单元 ， 每 一 单元 有 自己 的 服务 器 、 客 户 、 系 统管 理 员 和 用 户 。 每 
个 单元 是 一 个 完全 自治 的 环境 ,但 这 些 协作 的 单元 可 以 共同 为 用 户 提供 一 个 统一 的 、 无 纤 的 文件 名 空 
间 。Transare 公司 广泛 部 署 了 此 类 系统 ， 并 且 发 表 了 性 能 使 用 模式 调查 结果 [Spasojevic and Saty- 
anarayanan 1996 ] 。 这 一 系统 已 安装 在 超过 150 个 结 点 的 超过 1000 台 服 务 嚣 上。 调查 结果 表明 ， 在 一 个 
大 约 有 200GB 数据 的 32 000 个 文件 卷 的 系统 中 ， 缓 存 命中 率 在 96% ~98% 之 间 。 


12.5 最 新 进展 


NFS 和 AFS 出 现 以 后 ， 分 布 式 文件 系统 的 设计 又 取得 了 一 些 进 展 。 在 本 节 中 ， 我们 将 介绍 在 改善 
传统 分 布 式 文件 系统 的 性 能 、 可 用 性 和 可 伸缩 性 方面 的 一 些 进 展 。 我 们 将 在 本 书 的 其 他 章节 介绍 一 些 
更 有 影响 的 进展 ， 包 括 在 Bayou 和 Coda 系统 中 ， 通 过 维持 读 写 文件 集 系 统 副本 的 一 致 性 来 支持 断 连 和 
高 可 用 性 (参见 18. 4. 2 节 和 18.4.3 节 ) ， 以 及 在 Tiger 视频 文件 服务 器 系统 中 保证 实时 传输 数据 的 质 
量 的 高 伸缩 性 的 体系 结构 (参见 20.6.1 47). 

NFS 的 改进 ”一些 研 究 项 目 已 经 解决 了 单个 拷贝 的 更 新 语义 问题 ， 它 们 扩展 了 NFS 协议 使 其 包括 
open 和 close 操作 并 加 入 回调 机 制 使 服务 器 能 通知 包含 失效 缓存 条 目的 客户 。 下 面 将 介绍 其 中 的 两 方面 
工作 。 它 们 的 结果 说 明 : 在 可 以 容忍 的 复杂 度 和 通信 开销 下 ， 可 以 采用 这 些 改进 。 

Sun 公司 和 其 他 NFS 开发 者 最 近 致 力 于 使 NFS 服务 器 更 易 访 问 并 使 用 在 广域网 上 。 尽 管 Web 服务 
器 支持 的 HTTP 协议 提供 了 有 效 的 和 高 伸缩 性 的 文件 方法 ， 以 使 整个 文件 可 供 互 联网 上 每 个 用 户 使 用 ， 
但 它 不 适用 于 需要 访问 大 文件 或 更 新 部 分 文件 的 应 用 程序 。WebNFS 的 开发 〈 将 在 下 面 介绍 ) 使 互联 
网 内 的 任 一 地 点 的 应 用 程序 成 为 NFS 服务 器 的 客户 成 为 可 能 (通过 直接 使 用 NFS 协议 而 不 是 间接 地 通 
过 内 核 模块 的 方式 ) 。 这 种 方式 和 合适 的 支持 Java 和 其 他 网 络 编程 语言 的 库 一 起 ， 提 供 了 实现 直接 共 
享 数据 的 互联 网 应 用 的 可 能 性 ， 例 如 多 用 户 的 游戏 或 者 具有 大 规模 动态 数据 库 的 客户 端 。 

KPA MAHL: NES 的 无 状态 服务 器 结构 提高 了 NFS 的 健壮 性 ， 并 使 NFS 更 容易 实现 ， 
但 它 偏离 了 精确 的 单个 拷贝 更 新 语义 〔 不 保证 多 个 客户 对 同一 文件 并 发 写 的 结果 ， 与 在 一 个 UNIX 系 
统 中 多 个 进程 并 发 写本 地 文件 的 结果 完全 相同 ) 。 同 时 它 也 未 使 用 回调 通知 客户 文件 发 生 了 改变 ， 这 样 
就 导致 客户 为 了 检查 文件 是 否 改变 了 而 频繁 地 调用 getattr 操作 。 

有 了 两 个 已 开发 的 研究 系统 解决 了 这 些 缺 陷 。Spritely NFS [Srinivasan and Mogul 1989, Mogul 1994 | 
是 为 Berkeley 的 Sprite 分 布 式 操作 系统 [Nelson et al. 1988] 开发 的 文件 系统 。 

Spritely NFS 在 其 NFS 协议 的 实现 中 加 入 了 open 和 close 调用 。 当 本 地 用 户 级 进程 对 服务 器 上 的 文 
件 的 执行 打开 操作 时 ， 客 户 模 块 必须 发 送 一 个 open 操作 open 操作 的 参数 指定 了 操作 模式 ( 读 、 写 或 
两 者 都 有 ) 以 及 当前 有 打开 的 文件 《进行 读 或 写 ) 的 本 地 进程 数 。 同 样 ， 当 本 地 进程 关闭 远程 文件 
时 ， 它 必须 给 服务 器 发 送 一 个 包含 读 写 更 新 计数 的 close 操作 。 服 务 器 将 这 一 数字 和 客户 的 IP 地址 和 
端口 号 一 起 记录 在 一 个 打开 文件 表 中 。 

当 服 务 器 接收 到 一 个 open 调用 时 ， 它 通过 查找 打开 文件 表 找 出 所 有 打开 同样 文件 的 客户 ， 并 且 将 
回调 信息 发 送 给 这 些 客 户 ， 指 导 它们 修改 其 缓存 策略 。 如 果 该 open 操作 指定 的 是 写 模式 ， 并 且 有 其 他 
客户 以 写 模式 打开 此 文件 时 ， 这 一 操作 便 会 失败 。 在 一 个 客户 写 文件 时 ， 系 统 会 通知 其 他 以 读 模 式 打 
开 文 件 的 客户 ， 使 客户 缓存 中 的 文件 拷贝 失效 。 

对 于 一 个 以 读 模 式 的 打开 文件 的 客户 ， 服 务 器 会 将 回调 消息 发 送 给 正在 对 此 文件 执行 写 操作 的 客 
P, 通知 它 停 止 缓 存 (即使 用 严格 的 写 透 模式 ) ， 并 且 它 会 通知 所 有 读 此 文件 的 客户 停止 缓存 此 文件 
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(这 样 所 有 的 本 地 读 调 用 都 会 发 出 一 个 对 服务 器 的 请 求 ) 。 

这 种 方法 导致 维持 UNIX 的 单个 拷贝 更 新 语义 的 文件 服务 需要 在 服务 器 上 记录 一 些 与 客户 相关 的 
信息 。 在 处 理 对 缓存 文件 的 写 操 作 方 面 ， 效 率 也 有 所 提高 。 如 果 服 务 器 在 其 非 持 久 的 存储 器 中 保存 与 
客户 相关 的 状态 ， 这 就 易 受 服务 器 崩溃 的 影响 。Spritely NFS 实现 了 一 个 恢复 协议 ， 通 过 查询 最 近 在 服 
务 器 上 打开 文件 的 客户 列表 来 恢复 整个 打开 文件 表 。 这 是 基于 一 种 “悲观 ”策略 ， 即 客户 列表 存储 在 
磁盘 上 ， 并 且 很 少 被 更 新 一 一 可 能 它 包含 的 客户 比 在 系统 骨 溃 时 打开 文件 的 客户 多 。 出 故障 的 客户 可 
能 也 在 打开 文件 表 中 ,但 当 该 客户 重启 时 ， 它 会 被 删除 。 

当 将 Spritely NFS 和 NFS v2 进行 比较 时 ， 前 者 的 性 能 有 了 一 定 程度 的 改进 。 这 源 于 对 写 文 件 缓存 
的 改进 。NFS v3 至 少 达 到 了 同样 程度 的 改进 ， 但 Spritely NFS 项 目的 结果 表明 在 不 明显 损失 性 能 的 情况 
下 实现 单个 拷贝 更 新 语义 是 可 能 的 ， 虽 然 这 样 做 客户 和 服务 器 模块 比较 复杂 ， 并 且 需 要 一 个 恢复 机 制 
以 便 在 服务 器 月 浊 后 能 够 恢复 原 有 状态 。 

NQNFS: NQNFS (Not Quite NFS) 系统 [Macklem 1994] 的 目标 和 Spritely NFS 类 似 一 一 在 NFS 协 
议 中 加 入 更 精确 的 缓存 一 致 性 并 且 通 过 更 好 地 使 用 缓存 来 改进 性 能 。NQNFS 服务 器 维持 与 Spritely NFS 
相似 的 关于 客户 打开 文件 的 状态 ， 但 它 使 用 租借 (参见 5.4.3 节 ) 处 理 服 务 器 山 溃 后 的 恢复 。 服 务 器 
为 客户 持 有 打开 文件 的 租借 期 设置 一 个 上 限 。 如 果 客 户 希 望 在 超出 此 时 间 后 继续 持 有 该 打开 文件 ， 它 
必须 续 租 。 当 发 生 写 请 求 时， 系统 使 用 与 Spritely NFS 相似 的 回调 机 制 来 通知 客户 刷新 其 缓存 ， 但 如 果 
客户 没有 应 答 ， 服 务 器 在 响应 新 的 写 请 求 之 前 会 一 直 等 待 ， 直 到 租借 期 满 为 止 。 

WebNFS: Web 和 Java applet 的 出 现 使 NFS 开发 小 组 和 其 他 人 认识 到 : 一 些 互联 网 应 用 可 以 直接 访 
fa] NFS 服务 器 ， 这 样 做 不 会 产生 与 模拟 标准 的 NES 客户 中 包含 的 UNIX 文件 操作 相关 的 开销 。 

WebNFS (在 RFCo2055 和 2056 中 描述 [Callaghan 1996a, 1996b]) 的 目标 是 使 Web 浏览 器 、Java 
程序 和 其 他 应 用 程序 与 NFS 服务 器 直接 进行 交互 来 访问 文件 ， 这 些 文 件 是 使 用 公共 文件 句柄 访问 相对 
于 公共 根 目录 的 文件 而 被 “公开 的 ”的 。 这 种 模式 避免 了 安装 服务 和 端口 映射 服务 〈 见 第 5 章 )。 
WebNFS 客户 通过 一 个 约定 的 端口 号 (2049) 与 服务 器 交互 。 为 了 根据 路 径 名 访问 文件 ， 它 使 用 一 个 
公共 文件 句柄 发 出 一 个 lookup 请 求 。 该 公共 文件 句柄 有 一 个 约定 的 值 ， 服 务 器 上 的 虚拟 文件 系统 专门 
解释 这 个 值 。 由 于 广域网 的 高 延迟 性 ， 系 统 使 用 多 组 件 的 lookup 操作 来 查找 请 求 中 的 多 部 分 路 径 。 

这 样 在 较 少 的 安装 开销 下 ，WebNFS 使 客户 能 够 访问 远程 NFS 服务 器 上 的 文件 。 它 也 提供 了 访问 
控制 和 认证 ， 但 在 许多 情况 下 ， 客 户 只 需要 读 取 公 共 文 件 ， 在 这 些 情况 下 ， 认 证 选项 可 以 关闭 。 在 支 
持 WebNFS 的 NFS 服务 器 上 ， 为 了 读 一 个 文件 的 某 一 部 分 ， 系 统 需 要 建立 一 个 TCP 连接 和 两 个 RPC 调 
用 一 一 一 个 多 组 件 的 lookup 操作 和 一 个 read 操作 。NFS 协议 不 限制 所 读数 据 块 的 大 小 。 

例如 ， 一 个 天 气 服务 可 以 在 它 的 NFS 服务 器 上 公开 一 个 文件 ， 该 文件 包含 一 个 需要 经 常 更 新 的 天 
气 数据 的 数据 库 ， 它 的 URL 为 : 

nfs: //data. weather. gov/weatherdata/global. data 

一 个 显示 气象 图 的 交互 式 WeatherMap 客户 可 以 用 Java 或 其 他 支持 WebNS 过 程 库 的 语言 构建 。 客 
户 只 需要 读 取 weatherdata/ global. data 文件 中 的 部 分 信息 就 可 以 构建 用 户 所 需 的 气象 图 ， 而 使 用 HTTP 
访问 天 气 数据 的 类 似 应 用 程序 需要 将 整个 数据 库 传输 给 客户 ， 或 者 需要 使 用 专门 服务 器 程序 来 获得 所 
需 的 数据 。 

NFS 第 4 M: NFS 协议 的 新 版 本 在 2000 年 开发 出 来 。RFC 2624 [Shepler 1999] 和 Brent Callaghan 
的 书 [Callaghan 1999] 中 都 描述 了 NFS 第 4 版 的 目标 。 和 WebNFS 相似 ， 它 的 目标 是 使 NFS 能 适用 于 
广域网 和 互联 网 的 应 用 。 它 将 包含 WebNFS 的 特征 ， 但 新 协议 的 引进 也 提供 了 做 更 多 改进 的 可 能 。 
(WebNFS 对 改变 服务 器 有 一 定 限制 ， 它 并 没有 在 协议 中 加 入 新 的 操作 。) 

开发 NFS v4 的 工作 组 希望 利用 在 过 去 十 几 年 中 文件 服务 器 设计 领域 的 一 些 研究 成 果 ， 例 如 使 用 回 
调 或 租借 机 制 来 维持 一 致 性 。NFS v4 希望 通过 人 允许 文件 系统 透明 地 从 一 个 服务 器 转移 到 另 一 个 服务 器 
来 支持 服务 器 故障 后 的 即时 恢复 。 通 过 使 用 代理 服务 器 来 改进 可 伸缩 性 。 

AFS 的 改进 “我 们 已 经 提 到 过 DCE/DFS， 它 是 一 种 包含 在 开放 软件 基金 会 的 分 布 式 计算 环境 中 的 
分 布 式 文件 系统 [www. opengroup. org], ， 基 于 Andrew 文件 系统 。DCEADFS 的 设计 超越 了 AFS， 特 别 是 
在 保证 缓存 一 致 性 的 方法 方面 。 在 AFS 中 , 仅 当 服务 器 接收 到 对 已 经 更 新 的 文件 的 close 操作 请 求 时 ， 
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系统 才 生成 回调 。DFS 使 用 一 种 与 Spritely NFS 和 NQNFS 相似 的 策略 在 文件 被 更 新 时 生成 回调 。 为 了 
更 新 一 个 文件 ， 客 户 必须 从 服务 器 获得 一 个 wite 标记 ， 用 于 指定 允许 客户 更 新 的 文件 区 域 。 在 请 求 
write 标记 后 ， 具 有 同一 文件 拷贝 (用 于 读 ) 的 客户 会 收 到 撤回 回调 。 可 使 用 其 他 类 型 的 标识 获得 缓存 
文件 属性 和 其 他 元 数据 的 一 致 性 。 所 有 标记 都 有 与 之 关联 的 生命 期 ， 在 生命 期 满 以 后 ， 客 户 必须 续 延 
其 标识 的 生命 期 。 

存储 组 织 的 改进 ”关于 存储 在 磁盘 上 的 文件 数据 的 组 织 的 研究 有 很 大 的 进展 。 分 布 式 文件 系统 需 
要 支持 更 多 的 负载 ， 具 有 更 高 的 可 靠 性 ， 这 种 需求 推动 了 这 方面 的 研究 工作 ， 也 导致 了 文件 系统 性 能 
的 大 幅度 提高 。 这 些 研 究 工作 的 主要 成 果 如 下 : 

廉价 磁盘 的 宛 余 阵列 (RAID): 这 是 一 种 存储 模式 [Patterson et al. 1988, Chen et al. 1994] ， 其 中 
数据 被 分 解 成 固定 大 小 的 块 ， 并 存储 在 跨越 多 个 磁盘 的 “条 带 ” 上 ， 它 们 各 宛 祭 的 错误 更 正 代 码 存储 
在 一 起 ， 更 正 代码 用 于 在 磁盘 故障 时 完全 重建 数据 块 ， 系 统 可 以 继续 操作 数据 。RAID 也 比 单个 磁盘 的 
性 能 好 ， 这 是 因为 组 成 块 的 条 带 可 以 被 并 发 地 读 、 写 。 

日 志 结 构 的 文件 存储 (LFS): 和 Spritely NFS 一 样 ， 这 项 技术 源 于 Berkeley Sprite 分 布 式 操作 系统 
项 目 [Rosenblum and Ousterhout 1992 ] 。 注 意 ， 在 文件 服务 器 中 用 于 文件 缓存 的 主 存 越 多 ， 相 应 缓存 命 
中 率 越 高 ， 读 文件 操作 的 性 能 越 好 ， 但 是 写 文件 性 能 仍然 没有 提高 。 这 源 于 将 单个 数据 块 写 人 磁 扣 以 
及 更 新 元 数据 块 〈 包 含 文件 属性 和 指向 文件 中 数据 块 的 指针 向 量 ,， 例 如 i 结 点 ) 操作 的 延迟 。 

LFS 的 解决 方案 是 在 内 存 积累 若干 写 操作 ， 然 后 将 它们 写 到 划分 为 大 的 、 连 续 的 、 定 长 的 段 的 磁 
盘 上 。 这 些 段 被 称 为 日 志 段 ， 因 为 数据 和 元 数据 块 严格 地 按照 被 更 新 的 顺序 存储 。 一 个 日 志 段 的 大 小 
为 1MB 或 更 大 ， 存 储 在 一 个 磁道 上 ， 它 去 掉 了 与 写 单 个 块 相 关 的 磁盘 头 延迟 。 被 更 新 数据 的 最 新 拷贝 
和 和 元 数据 块 总 是 被 写 ， 因 此 要 求 维护 一 个 指向 i 结 点 的 动态 上 映射。 系统 还 要 回收 废弃 的 块 空间 ， 其 方 
法 是 将 “ 活 ” 的 块 放置 在 一 起 以 便 为 日 志 段 的 存储 留 出 连续 的 空 亲 空间。 后 一 种 操作 是 比较 复杂 的 ， 
它 由 一 个 称 为 cleaner 的 组 件 以 后 台 活 动 的 方式 执行 。 根 据 仿真 的 结果 ， 现 在 已 开发 了 一 些 比较 复杂 的 
cleaner 算法 。 

尽管 有 这 些 额 外 的 开销 ， 但 整个 系统 的 性 能 改进 还 是 比较 显著 的 : Rosenblum 和 Ousterhout 测量 得 
到 写 的 吞吐 量 高 达 可 用 带宽 的 70% ， 而 在 传统 的 UNIX 文件 系统 中 ， 这 一 数字 小 于 10% 。 日 志 结 构 也 
简化 了 服务 器 崩溃 后 的 恢复 过 程 。Zebra 文件 系统 [Hartman and Ousterhout 1995] 作为 最 初 的 LFS 的 后 
继 成 果 ， 将 结构 化 日 志 的 写 和 分 布 式 RAID 方法 结合 起 来 日 志 段 被 划分 为 包含 错误 更 正 代码 的 节 
并 且 被 写 到 不 同 网 络 结 点 的 磁盘 上 。 在 写 大 文件 时 ， 其 性 能 是 NFS 系统 的 4 ~5 倍 ; 在 与 小 文件 时 ， 性 
能 提高 则 不 那么 明显 。 

新 的 设计 方法 “高 性 能 交换 网 络 〈 例 如 ATM 和 高 速 交换 以 太 网 ) 的 开发 使 研究 人 员 注 意 研 究 如 何 
在 有 许多 结 点 的 企业 内 部 网 上 ， 以 高 伸缩 性 和 高 容错 性 的 方式 提供 分 布 式 文件 数据 的 持久 性 存储 系统 ， 
把 管理 元 数据 和 客户 请 求 服务 的 职责 与 读 写 数据 的 职责 相 分 离 。 下 面 将 概述 这 方面 的 两 项 进展 。 

这 些 方法 比 我 们 在 前 面 介 绍 的 集中 式 服 务 器 方法 有 更 好 的 伸缩 性 。 它 们 通常 要 求 合作 提供 服务 的 
计算 机 之 间 有 高 级 别 的 信任 度 ， 因 为 它们 通常 使 用 低级 别 的 协议 在 持 有 数据 的 结 点 间 通 信 (有 些 类 似 
于 一 个 “虚拟 磁盘 ”的 API) 。 因 此 它们 的 范围 常常 只 限于 单个 本 地 网 络 。 

xFS; 美国 加 州 大 学 伯克利 分 校 的 一 个 小 组 设计 了 一 个 无 服务 器 网 络 文件 系统 体系 结构 并 开发 了 一 
个 原型 ， 即 xFS [Anderson et al. 1996]. A 3 个 因素 促成 了 该 原型 的 实现 : 

1) 快速 交换 局 域 网 使 本 地 网 上 的 多 个 文件 服务 器 可 以 并 发 地 向 客户 传输 大 量 的 数据 。 

2) 不 断 增长 的 访问 共享 数据 的 需求 。 

3) 基于 集中 式 文件 服务 器 的 一 些 限 制 。 

关于 第 3 点 ， 他 们 提出 这 样 一 个 事实 : 构建 高 性 能 的 NFS 服务 器 需要 相对 昂贵 的 硬件 ， 包括 多 个 
CPU、 磁 盘 和 网 络 控制 器 ， 并且 存在 划分 文件 空间 的 限制 一 一 需要 将 不 同文 件 集 系统 的 共享 文件 安装 
到 不 同 的 服务 器 上 。 他 们 还 指出 ,一 个 中 心 式 的 服务 器 系统 容易 受 单 点 故障 的 影响 。 

xFS 是 “无 服务 器 ”的 ， 意 味 着 它 在 单个 文件 的 粒度 上 将 文件 服务 器 处 理 责任 分 散 到 本 地 网 的 可 
用 的 计算 机 上 。 存 储 责任 独立 于 管理 和 其 他 服务 责任 进行 分 布 : xFS 实现 了 一 个 软件 的 RAID 存储 系 
统 ， 它 将 文件 数据 分 散 存储 到 多 个 计算 机 磁盘 上 〈 从 这 个 意义 上 说 ， 它 是 第 20 章 将 描述 的 Tiger 视频 
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文件 系统 的 先驱 ) ， 它 使 用 了 和 Zebra 文件 系统 相似 的 结构 化 日 志 技 术 完 成 分 散 存储 。 

管理 每 个 文件 的 责任 可 以 被 分 配 到 任意 一 个 支持 xFS 服务 的 计算 机 上 。 通 过 被 复制 到 每 一 个 客户 
和 服务 器 上 的 叫做 管理 者 映射 表 的 一 个 元 数据 结构 可 以 实现 这 一 策略 。 文 件 标识 符 包含 一 个 作为 此 管 
理 者 映射 表 索 引 的 域 ， 并 且 此 映射 表 中 的 每 一 个 条 目 都 标识 了 当前 负责 管理 相应 文件 的 计算 机 。 其 他 
一 些 元 数据 结构 用 来 管理 结构 化 日 志文 件 存储 和 条 带 化 磁盘 存储 ， 它 们 和 其 他 结构 化 日 志和 RAID 存 
储 系统 中 的 元 数据 结构 相似 。 

已 经 构造 了 一 个 xFS 的 初步 原型 ， 并 且 进 行 了 性 能 评估 。 进 行 性 能 评估 时 ， 这 一 原型 还 是 不 完善 
的 一 一 肯 溃 恢复 还 没有 完全 实现 并 且 结 构 化 日 志 的 存储 方案 也 缺少 一 个 cleaner 模块 来 恢复 被 废弃 的 日 
志和 压缩 文件 所 占据 的 空间 。 

对 这 一 初步 原型 进行 性 能 评估 时 ,使 用 的 是 连接 在 高 速 网 络 上 的 32 个 单 处 理 器 和 双 处 理 器 的 Sun 
SPARC 工作 站 。 评 测 时 对 运行 在 32 个 工作 站 上 的 xFS 和 运行 在 双 处 理 器 Sun SPARC 工作 站 上 的 NFS 
和 AFS 进行 了 比较 。 具 有 32 个 服务 器 的 xFS 的 读 写 带宽 是 运行 在 一 个 双 处 理 髓 上 的 NES 和 AFS 的 读 
写 带宽 的 10 售 左右 。 当 使 用 标准 的 AFS 基准 测试 时 ，xFS 和 NFS、AFS 的 性 能 差距 并 不 明显 。 总 之 ， 
结果 表明 ，xFS 的 高 度 分 布 式 处 理 和 存储 体系 结构 为 分 布 式 文件 系统 获得 更 好 的 可 伸缩 性 提供 了 一 个 
有 和 希望 的 方向 。 

Frangipani; Frangipani 是 在 数字 系统 研究 中 心 (SAE Compaq 系统 研究 中 心 ) 开发 和 部 署 的 高 可 
伸缩 性 的 分 布 式 系统 [Thekkath et al. 1997] 。 它 的 目标 和 xFS 十 分 相似 ， 并 且 和 xFS 一 样 ， 其 设计 目的 
也 是 将 持久 存储 责任 和 其 他 文件 服务 活动 相 分 离 。 但 Frangipani 的 服务 被 划分 为 完全 独立 的 两 个 层次 。 
其 底层 由 Petal 分 布 式 虚 拟 磁 盘 系 统 [Lee and Thekkath 1996] 提供 。 

Petal 为 交换 式 局 域 网 上 的 多 个 服务 器 磁盘 提供 了 一 个 分 布 式 的 虚拟 磁盘 抽象 。 这 一 虚拟 磁盘 抽象 
通过 存储 数据 的 多 个 副本 来 应 付 大 多 数 的 硬件 和 软件 错误 ， 它 还 通过 对 数据 重 定位 来 自动 平衡 服务 器 
上 的 负载 。UNIX 磁盘 驱动 器 通过 标准 的 块 输入 输出 操作 访问 Petal 虚拟 磁盘 ， 所 以 Petal 虚拟 磁盘 可 以 
支持 大 多 数 文件 系统 。Petal 增加 了 10% ~ 100% 的 磁盘 访问 延迟 ， 但 缓存 策略 可 以 使 其 读 写 吞 吐 量 至 
少 和 底层 的 磁盘 驱动 一 样 好 。 

Frangipani 服务 器 模块 运行 在 操作 系统 内 核 中 。 和 xFS 中 一 样 ， 管 理 文件 和 相关 任务 的 职责 (包括 
对 客户 提供 的 文件 锁 服 务 ) 被 动态 地 分 配给 主机 ， 并 且 所 有 的 机 器 看 到 的 是 一 个 统一 的 文件 名 空间 ， 
它们 可 以 一 致 地 《具有 近似 的 单个 拷贝 语义 ) 访问 共享 的 可 被 更 新 的 文件 。 数 据 以 结构 化 日 志和 条 带 
格式 存储 在 Petal 虚拟 磁盘 存储 中 。Petai 减轻 了 Frangipani 管理 物理 磁盘 空间 的 需要 ， 从 而 可 以 实现 一 
个 较 简单 的 分 布 式 文件 系统 。Frangipani 可 以 模拟 几 种 已 有 的 文件 服务 的 服务 接口 ， 包 括 NFS 和 DCE/ 
DFS, Frangipani 的 性 能 至 少 和 UNIX 文件 系统 的 Digital 实现 一 样 好 。 


12.6 小 结 


分 布 式 文件 系统 的 主要 设计 问题 包括 : 

。 有 效 地 使 用 客户 缓存 以 便 获 得 和 本 地 文件 系统 相同 甚至 更 好 的 性 能 。 

© 当 文 件 更 新 时 ， 维 护 文件 的 多 个 客户 拷贝 的 一 致 性 。 

。 在 客户 和 服务 器 发 生 故 障 后 进行 恢复 。 

。 提高 读 写 不 同 大 小 文件 的 吞吐 量 。 

。 可 伸缩 性 。 

分 布 式 文件 系统 在 有 组 织 的 计算 中 被 广泛 使 用 ， 它 们 性 能 的 提高 是 优化 的 目标 。NFS 包含 一 个 简 
单 的 无 状态 协议 ， 借 助 于 对 协议 的 细小 改进 、 优 化 的 实现 和 高 性 能 的 硬件 支持 ，NFS 一直 保持 它 在 分 
布 式 文件 系统 技术 领域 的 统治 地 位 。 

AFS 显示 了 一 种 相对 简单 的 体系 结构 的 可 行 性 ， 它 使 用 服务 器 状态 减 小 维护 客户 缓存 一 致 性 的 开 
销 。AFS 在 许多 情况 下 的 性 能 好 于 NFS。 最 近 ，AFS 使 用 了 跨越 数 个 磁盘 的 数据 条 带 和 结构 化 日 志 写 
操作 ， 这 些 研 究 进展 进一步 改进 了 AFS 的 性 能 和 可 伸缩 性 。 

当前 最 先进 的 分 布 式 文件 系统 具有 较 高 的 伸缩 性 ， 并 且 可 提供 跨越 本 地 和 广域网 的 优良 性 能 ， 维 
护 单个 拷贝 文件 更 新 语义 ， 并 且 能 容错 和 从 故障 中 恢复 。 未 来 的 需求 包括 支持 经 常 有 断 连 操作 的 移动 
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支持 自动 重 集成 和 服务 质量 保障 ， 以 便 满足 持久 存储 和 传输 多 媒体 数据 流 以 及 其 他 实时 数据 的 


需要 。 第 18 章 和 第 20 章 将 介绍 这 些 需 求 的 解决 办 法 。 
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为 什么 在 平面 文件 服务 或 目录 服务 的 接口 中 没有 open 操作 或 close HELE. A ae ARF HY lookup 操作 和 


UNIX 的 open 操作 有 哪些 区 别 ? (第 532 ~534 页 ) 
请 列 出 使 用 模型 文件 服务 ， 客 户 模拟 UNIX 文件 系统 接口 的 方法 。 . (第 532 ~534 页 ) 
写 出 一 个 PathLookup (Pathname, Dir) 一 UFID 过 程 ， 该 过 程 基 于 模型 目录 服务 实现 对 UNIX 式 路 径 
名 的 Lookup 操作 。 (第 532 ~534 页 ) 


为 什么 UFID 必须 在 多 个 可 能 的 文件 系统 上 保持 唯一 ? 这 种 唯一 性 是 怎样 保证 的 ? (第 535 页 ) 
Sun NFS 在 何 种 程度 上 偏离 了 单个 拷贝 文件 更 新 语义 ? 请 构造 这 样 一 个 场景 ， 两 个 共享 一 个 文件 的 
用 户 级 进程 可 以 在 一 个 UNIX 主机 上 正常 操作 ， 但 当 它 们 运行 在 不 同 的 主机 上 时 便 会 出 现 不 一 致 性 。 

(R 542 页 ) 
Sun NFS 的 目标 是 通过 提供 一 个 独立 于 操作 系统 的 文件 服务 来 支持 异 构 的 分 布 式 系统 。 一 个 非 UNIX 
的 操作 系统 的 NFS 服务 器 的 实现 者 必须 采取 的 关键 决策 是 什么 ? 为 了 实现 NFS 服务 器 ,其 底层 的 文 


件 系统 要 遵守 什么 限制 ? (第 536 页) 
NFS 客户 模块 必须 拥有 哪些 代表 用 户 级 进程 的 数据 ? (第 536 ~537 页 ) 
使 用 图 12-9 中 的 NFS RPC 调用 ,分 别 给 出 在 不 使 用 和 使 用 一 个 客户 缓存 情况 下 ，UNIX 的 open() 和 
read() 系统 调用 的 实现 。 (第 538 W, 第 542 页 ) 
请 解释 为 什么 NFS 的 最 初 实现 中 的 RPC 接口 可 能 是 不 安全 的 。NFS 3 通过 使 用 加 密 弥 补 了 这 个 安全 
A, PARMAR? 密 钥 的 安全 性 足够 吗 ? (第 539 H, 第 544 页 ) 
在 一 个 RPC 调用 访问 一 个 硬 安装 的 文件 系统 上 的 文件 超时 后 ，NFS 客户 模块 并 没有 将 控制 返回 到 
发 出 调用 的 用 户 级 进程 ， 为 什么 ? (第 539 页 ) 
NFS 的 自动 安装 器 是 如 何 改进 NFS 的 性 能 和 可 伸缩 性 的 ? (第 541 页 ) 
解析 存储 在 NFS 服务 器 上 的 包含 5 部 分 的 路 径 名 (例如 ，/usr/users/jim/code/xyz. c) 需要 多 少 个 
lookup 调用 ? 执行 一 步 步 翻 译 的 原因 是 什么 ? (第 540 页 ) 
为 了 在 基于 NFS 的 文件 系统 上 获得 访问 透明 性 ， 在 客户 计算 机 上 的 安装 表 的 配置 必须 满足 哪些 
条 件 ? (第 540 页 ) 
当 客 户 发 送 一 个 对 共享 文件 空间 内 的 一 个 文件 的 打开 和 关闭 系统 调用 时 ，AFS 如 何 获得 控制 ? 
(第 549 页 ) 
将 访问 本 地 文件 的 UNIX 更 新 语义 和 NFS 及 AFS 的 更 新 语义 进行 比较 。 在 什么 情况 下 ， 客 户 可 以 意 
识 到 其 差异 ? (第 542 W, 第 554 页 ) 
AFS 是 如 何 处 理 回调 信息 可 能 丢失 这 一 风险 的 ? (第 552 页 ) 
AFS 设计 的 什么 特点 使 得 它 比 NFS 有 更 大 的 可 伸缩 性 ? 假设 需要 加 入 服务 器 ， 那 么 其 伸缩 性 有 什么 


限制 ? 有 哪些 最 近 的 研究 成 果 提 供 了 更 好 的 可 伸缩 性 ? (第 545 页 , 第 556 页 , 第 561 页 ) 
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名 字 服 务 


本 章 将 名 字 服 务 作为 一 个 独特 的 服务 加 以 介绍 。 使 用 名 字 服 务 ， 客 户 进程 可 以 根据 名 字 获 取 资 源 
或 对 象 的 地 址 等 属性 。 被 命名 的 实体 可 以 是 任何 类 型 ， 并 且 可 由 不 同 的 服务 管理 。 例 如 ， 名 字 服 务 经 
常用 于 保存 用 户 、 计 算 机 、 网 络 域 、 服 务 以 及 远程 对 象 的 地 址 以 及 其 他 细节 。 除 名 字 服 务 外 ， 我 们 还 
将 介绍 目录 服务 ， 它 可 以 根据 服务 的 属性 寻找 特定 服务 。 

我 们 将 以 互联 网 域名 系统 (DNS) 为 例 来 介绍 名 字 服 务 的 设计 要 点 ， 如 服务 可 以 识别 的 名 字 空 间 
的 结构 与 管理 、 名 字 服 务 支持 的 操作 等 。 

我 们 还 将 探讨 名 字 服 务 的 实现 ， 其 中 涉及 名 字 解 析 过 程 中 的 名 字 服 务 器 导航 、 为 提高 性 能 与 可 用 
性 对 名 字数 据 进行 缓存 与 复制 等 。 

本 章 包含 两 个 深入 研究 的 实例 : 全 局 名 字 服 务 (CNS) 与 X.500 目录 服务 (包括 LDAP), 


13.1 简介 


在 分 布 式 系统 中 ， 名 字 用 于 指称 计算 机 、 服 务 、 远 程 对 象 、 文 件 ， 甚 至 用 户 等 各 种 资源 。 命 名 在 
分 布 式 系统 设计 中 其 实 是 一 个 非常 基本 的 问题 ， 尽 管 它 极 易 被 忽略 。 名 字 为 通信 与 资源 共享 提供 了 便 
利 。 当 要 求 计算 机 系统 对 某 个 资源 进行 操作 时 ， 就 需要 一 个 名 字 。 例 如 ， 访 问 特 定 Web 页 面 需要 一 个 
以 URL 形式 表示 的 名 字 。 只 有 在 所 有 进程 中 一 致 地 命名 了 计算 机 系统 管理 的 特定 资源 ， 进 程 才 能 共享 
这 些 资 源 。 同 样 ， 在 分 布 式 系 统 中 ， 只 有 用 户 能 够 给 出 对 方 名 字 ， 双 方才 能 互相 通信 ， 例 如 ， 电 子 地 
邮件 址 就 是 一 种 名 字 。 

名 字 并 不 是 识别 对 象 的 唯一 方法 ， 描 述 性 的 属性 也 可 用 于 识别 对 象 。 有 了 时候 ， 一 些 客 户 并 不 知道 
它们 寻找 的 实体 的 名 称 ， 却 知道 一 些 描述 这 些 实体 的 信息 。 也 有 可 能 客户 需要 一 个 服务 (而 不 是 实现 
它 的 一 个 实体 ) ， 却 只 知道 该 服务 具有 的 一 些 特征 。 

本 章 将 介绍 名 字 服 务 以 及 目录 服务 的 相关 概念 。 在 分 布 式 系统 中 ， 名 字 服 务 可 向 客户 提供 被 命名 
对 象 的 数据 ; 而 目录 服务 提供 满足 某 个 描述 的 对 象 的 数据 。 我 们 将 以 域名 服务 (DNS) 、 全 局 域名 服务 
(GNS) 以 及 X.500 作为 研究 实例 ， 来 描述 设计 与 实现 这 些 服务 的 方法 。 首 先 我 们 将 讨论 名 字 、 属 性 等 
基本 概念 。 


名 字 、 地 址 及 其 他 属性 


任何 请 求 访问 一 个 资源 的 进程 必须 拥有 该 资源 的 名 字 或 标识 符 。 文 件 名 (如 /etc/passwd)、URL 
(A http: //www. cdk5. net/) 以 及 互联 网 域名 (如 http; /www. cdk5. net/) 都 是 我 们 可 以 阅读 的 名 字 。 
而 标识 符 这 个 术语 有 时 指 只 有 程序 才能 够 解释 的 名 字 。 远 程 对 象 引 用 以 及 NES 文件 句柄 都 是 标识 符 的 
例子 。 选 择 标 识 符 的 一 个 重要 指标 是 软件 存储 与 查询 标识 的 效率 。 

Needhan [1993] 将 纯粹 的 名 字 与 其 他 名 字 区 分 开 来 。 纯 粹 的 名 字 仅 仅 是 未 解释 的 比特 模式 。 而 非 
纯粹 的 名 字 则 包含 被 命名 的 对 象 的 信息 ， 特 别 地 ， 它 们 会 包含 对 象 的 位 置信 息 。 纯 粹 的 名 字 在 使 用 前 
必须 被 查找 。 与 纯粹 的 名 字 完 全 相反 的 是 对 象 的 地 址 (address) ， 该 值 标识 对 象 的 位 置 而 不 是 对 象 本 
身 。 地 址 通常 可 用 于 访问 对 象 ， 但 对 象 有 时 会 被 重 定 位 ， 因 此 ， 地 址 并 不 足以 作为 标识 方法 。 例 如 ， 
用 户 的 电子 邮件 地 址 通常 会 因 用 户 在 不 同 的 组 织 或 使 用 不 同 的 互联 网 服务 供应 商 而 改变 ， 因 此 邮件 地 
址 本 身 并 不 能 永久 地 指 代 特 定 用 户 。 

当 一 个 名 字 被 翻译 成 被 其 命名 的 资源 或 对 象 的 数据 时 ， 我 们 称 一 个 名 字 被 解析 (resolved) ， 解 析 
对 象 名 的 目的 是 在 对 象 上 调用 一 个 动作 。 各 称 与 对 象 之 间 的 关联 通常 称 为 绕 定 。 一 般 而 言 ， 名 字 被 绑 
定 到 被 命名 对 象 的 属性 〈attribute) ， 而 不 是 对 象 本 身 的 实现 。 属 性 是 对 象 特 性 的 值 ， 与 分 布 式 系 统 相 
关 的 实体 的 一 个 重要 属性 就 是 对 象 的 地 址 。 例 如 : 
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© DNS 将 域名 映射 到 主机 的 属性 上 : 主机 的 他 地址、 条 目的 类 型 (例如 ， 引 用 的 是 邮件 服务 器 
还 是 其 他 主机 ) 以 及 主机 条 目的 有 效 时 间 。 

e X. 500 目录 服务 用 于 将 人 名 映射 到 邮件 地 址 、 电 话 号 码 等 一 系列 属性 上 。 

© CORBA 名 字 服 务 与 交易 服务 将 在 第 8 章 介绍 。 名 字 服 务 将 一 个 远程 对 象 名 映射 到 它 的 远程 对 
象 引 用 上 ， 而 交易 服务 在 将 一 个 远程 对 象 名 映射 到 它 的 远程 对 象 引 用 上 的 同时 ， 也 给 出 了 用 户 可 以 理 
解 的 对 象 的 一 些 属性 。 

注意 ,“ 地 址 ” 常 被 看 做 另 一 种 可 用 于 查找 的 名 字 ， 或 者 它 包含 一 个 可 查找 的 名 字 。 必 须 查 找 中 
地 址 来 获得 以 太 网 地 址 等 网 络 地 址 。 类 似 地 ，Web 浏览 器 以 及 邮件 客户 使 用 DNS 来 解释 URL 中 的 域名 
与 邮件 地 址 。 图 13-1 给 出 了 一 个 URL 的 域名 部 分 ， 它 首先 通过 DNS 被 解析 成 PP 地址 ， 然 后 在 互联 网 
路 由 的 最 后 一 跳 通过 ARP 解析 成 一 个 Web 服务 器 的 以 太 网 地 址 ，URL 的 最 后 一 部 分 被 Web 服务 器 上 
的 文件 系统 解析 ， 用 于 寻找 相关 文件 。 

URL 
http://www.cdk4.net:8888/WebExamples/earth.html 


DNS 查找 


资源 ID (IP 号 ， 端 口号 ， 路 径 号 ) 
55.55.55.55 8888 WebExamples/earth.html 


Web 服 务 器 


网 络 地 址 
2:60:8c:2:b0:5a > 文件 


cht 


图 13-1 使 用 组 合 命名 域 从 URL 访问 资源 


名 字 与 服务 ”分布 式 系统 使 用 的 许多 名 字 是 特定 的 服务 专用 的 。 例 如 ， 社 会 网 络 的 Web 站 点 twit- 
ter. com 的 用 户 可 以 有 这 样 的 名 字 @ magmapoetry ， 而 服务 器 并 不 解析 这 个 名 字 。 用 户 客户 程序 使 用 名 字 
来 请 求 特定 服务 以 便 在 它 管 理 的 已 命名 对 象 或 资源 上 执行 某 个 操作 。 例 如 ， 当 请 求 删 除 一 个 文件 时 ， 
需要 将 文件 名 传送 给 文件 服务 ; 如 果 需 要 向 特定 进程 发 送信 号 ， 则 要 将 该 进程 的 标识 符 传送 到 进程 管 
理 服务 。 除 客户 基于 共享 对 象 通信 的 情况 外 ， 上 述 名 字 仅 在 管理 命名 对 象 的 服务 的 上 下 文中 使 用 。 

在 分 布 式 系统 中 ， 名 字 也 要 能 指称 超出 单个 服务 范畴 的 实体 。 这 些 实体 主要 包括 用 户 (具有 专 有 
名 和 电子 邮件 地 址 ) 、 计 算 机 〈 有 主机 名 (hostnames), ， 如 www. cdk5. net) 以 及 服务 本 身 ( 如 文件 服务 
(file service) 、 打 印 服务 (printer service) ) 。 在 基于 对 象 的 中 间 件 中 ， 名 字 指 向 提供 了 服务 或 应 用 的 远 
程 对 象 。 注 意 ， 上 述 名 字 必 须 是 人 类 能 阅读 与 理解 的 ， 因 为 用 户 与 系统 管理 员 需 要 使 用 分 布 式 系 统 中 
的 主要 组 件 与 配置 ; 程序 员 需 要 使 用 程序 中 的 服务 ， 而 用 户 需 要 通过 分 布 式 系 统 相互 通信 ， 同 时 讨论 
系统 不 同 部 分 有 哪些 可 用 的 服务 。 考 虑 到 互联 网 的 连接 无 处 不 在 ， 这 些 命名 需求 可 能 是 全 球 性 的 。 

统一 资源 标识 符 ” 统 一 资源 标识 符 (Uniform Resource Identifier, URI) [Berners Lee et al. 2005] 是 
用 来 标识 Web 资源 ， 以 及 其 他 互联 网 资源 (如 电子 邮箱 ) 的 。 它 的 重要 目标 是 将 资源 以 一 致 的 方式 标 
识 出 来 ， 以 便 它们 能 被 公共 软件 (如 浏览 器 ) 处 理 。URI 是 “统一 的 ”"， 它 的 语法 结构 整合 了 各 种 相 
对 独立 并 且 尚 不 明确 的 资源 标识 符 类 型 ( 即 URI 方案 ) ， 还 提供 了 处 理 全 球 名 字 空 间 方案 的 过 程 。 统 
一 的 优点 在 于 ， 它 简化 了 引进 新 的 标识 符 类 型 的 过 程 ， 并 且 能 够 将 已 有 的 标识 符 类 型 应 用 到 新 的 上 下 
文中 ， 而 不 会 影响 已 有 的 应 用 。 

例如 ， 如 果 有 人 想 发 明 一 种 “窗口 部 件 ”URI， 则 URI 就 可 以 成 为 一 个 窗口 部 件 〈widget) : 必须 
要 遵守 全 球 URI 语法 规范 ， 以 及 本 地 窗口 部 件 标 识 符 方案 的 规则 。 这 样 做 ， 那 些 URI 就 能 明确 标识 窗 
口 部 件 资源 ， 现 有 的 并 不 会 访问 窗口 部 件 的 软件 也 可 以 正确 处 理 窗口 部 件 URI 一 一 例如 ， 通 过 管理 包 
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含 窗口 部 件 的 目录 。 下 面 是 一 个 URI 如 何 整 合 一 个 已 有 资源 标识 符 的 例子 ， 即 在 已 有 的 电话 号 码 面 前 
增加 机 制 名 tel， 并 且 将 电话 号 码 统一 表示 为 如 下 的 标准 形式 : tel; +1 -816 -555 -1212。 这 些 telURI 
可 以 作为 Web 连接 ， 而 且 当 有 人 单 击 链接 时 ， 就 会 拨 通 相应 的 电话 。 

统一 资源 定位 器 : 有 些 UR 提供 了 资源 的 位 置信 息 ; 而 另外 一 些 URI 则 纯粹 用 作 资 源 的 名 称 。 统 
一 资源 定位 器 〈Unifonn Resource Locator, URL) 常常 用 作 URI， 它 提供 资源 位 置信 息 和 指定 访问 资源 
的 方法 ， 包 括 1.6 节 提 到 的 “http”URL， 例 如 http: /www. cdk5. net/ ， 它 标识 了 主机 www. cdk5. net 
上 给 定 路 径 (“/”) 的 网 页 并 具体 说 明了 存 取 此 资源 所 用 到 的 HTTP 协议 。 另 一 个 例子 是 “mailto” 
URL， 如 mailto; fred@ flintstone. org 标识 了 一 个 给 定 地 址 的 邮箱 。 

URL 是 一 种 有 效 的 用 于 访问 资源 的 标识 符 ， 但 是 它 也 有 下 面 的 缺点 : 当 一 个 资源 被 删除 或 者 从 一 
个 网 站 移 到 另 一 个 网 站 时 ， 原 来 的 URL 就 会 成 为 一 个 指向 该 资源 变动 前 所 在 网 站 的 悬空 链接 。 当 用 户 
MX MASE, Web 服务 器 或 者 会 应 答 所 访问 资源 不 存在 ,或 者 更 糟糕 的 是 会 返回 给 用 户 一 个 
不 同 的 资源 ， 因 为 这 个 URL 又 被 重新 分 配给 了 另 一 个 资源 。 

统一 资源 名 称 ; 统一 资源 名 称 (Uniform Resource Name, URN) 是 URI 的 一 种 ， 它 仅 作为 纯粹 资 
源 名 ， 而 不 包含 资源 定位 符 。 例 如 ， 下 面 的 URI: 

mid: O0F4FC272-5C02-11D9-B115-000A95B55 BC8@ hpl. hp. com 
就 是 一 个 URN， 它 被 标注 在 电子 邮件 的 Message-Id 域 中 ， 从 而 标识 了 该 邮件 消息 。 这 个 URI 能 将 邮件 
消息 区 分 开 。 但 这 个 URI 本 身 并 没有 提供 任何 有 关 该 邮件 地 址 的 消息 ， 如 果 需 要 邮件 地 址 ， 则 需要 调 
用 相应 的 查询 操作 。 

以 um: 开头 的 特殊 的 URI 的 子 树 是 为 URN 而 保留 的 ， 但 并 不 是 所 有 URN 都 必须 以 wn 开头 ， 例 
如 上 面 例子 中 的 URN 就 是 以 mid 开头 。 以 um 开头 的 URI 都 形 如 : urn:nameSpace:nameSpace- specific- 
Name。 例 如 ，urn:ISBN :0-201-62433-8 标识 以 标准 ISBN 命名 机 制 命名 的 、 编 号 为 0-201-62433-8 的 书 。 
又 例如 ，um:doi: 10. 555/music- pop- 1234 标识 了 依据 数据 对 象 标识 方案 [www. doi. org]， 出 版 者 为 
10.555, ， 名 称 为 music-pop-1234 的 出 版 物 。 

有 一 些 解析 服务 (resolution service) (KARAHA FIA name services) ， 例 如 用 于 处 理 URN 
(DOI) 的 Handle 系统 可 以 通过 数据 对 象 标识 [www. handle. net] 获得 资源 属性 ， 但 是 没有 一 种 解析 服 
务 获 得 了 广泛 的 应 用 。 事 实 上 ， 在 Web 和 互联 网 搜索 社区 有 关于 独立 分 类 的 URN 应 该 如 何 扩展 的 争 
论 一 直 在 继续 。 其 中 一 派 认 为 应 该 “保持 URL 不 变 ”， 换 名 话说， 每 一 个 人 都 应 该 保证 URL 所 引用 的 
资源 持续 有 效 。 相 反 的 观点 则 认为 并 不 是 每 个 人 都 要 保证 URL 的 有 效 性 ， 因 为 这 需要 必要 的 资金 来 维 
持 对 域名 和 资源 的 管理 。 


13.2 “名字 服 务 和 域名 系统 


一 个 名 字 服 务 (name service) 存储 了 一 个 文本 名 字 集 合 的 信息 ， 其 形式 为 〈 表 示 用 户 、 计 算 机 、 
服务 以 及 对 象 等 ) 实体 文本 名 字 与 属性 的 绑 定 。 这 个 集合 通常 再 细 分 为 一 个 或 多 个 命名 上 下 文 : 单个 
绑 定 的 子 集 ， 它 们 作为 一 个 基本 单元 接受 管理 。 名 字 服 务 的 主要 操作 是 名 字 解 析 ， 即 根据 一 个 给 定 的 
名 字 查 找 相应 的 属性 ， 我 们 将 在 13.2.2 节 中 描述 名 字 解 析 的 实现 。 其 他 操作 ， 如 创建 新 的 绑 定 、 删 除 
绑 定 、 列 出 绑 定 的 名 称 以 及 增删 上 下 文 都 是 名 字 服 务必 须 支持 的 操作 。 

名 字 管 理 从 其 他 服务 中 分 离 出 来 的 主要 原因 在 于 分 布 式 系统 的 开放 性 。 开 放 性 带 来 了 下 列 需 求 ， 

。 一 致 性 : 不 同 服务 管理 的 资源 使 用 相同 的 命名 方案 会 很 方便 ，URL 就 是 一 个 很 好 的 例子 。 

© 集成 性 : 在 分 布 式 系统 中 并 不 总 能 预测 共享 的 范围 。 在 某 些 情 况 下 ， 必 须 共享 〈 从 而 命名 ) 

在 不 同 管理 域 中 创建 的 资源 。 如 果 没 有 一 个 公共 的 名 字 服务 ， 管 理 域 会 使 用 完全 不 同 的 命名 
约定 。 

通用 名 字 服 务 的 需求 ”名 字 服 务 最 初 非常 简单 ， 因 为 它 仅 用 来 满足 名 字 与 单个 管理 域 〈 如 单个 
LAN 或 WAN) 中 的 地 址 绑 定 的 需求 。 然 而 ， 网 际 互 连 以 及 分 布 式 系统 的 不 断 扩展 带 来 了 更 大 规模 的 名 
字 映 射 问题 。 

Grapevine [Birrell et al. 1982] 是 最 早 的 可 扩展 多 域名 字 服 务 之 一 。 从 名 字 的 数量 以 及 可 处 理 的 负 
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载 来 看 ， 至 少 可 在 两 个 数量 级 范围 内 伸缩 。 

数字 设备 公司 的 系统 研究 中 心 [Lampson 1986] 开发 的 全 局 名 字 服 务 是 Grapevine 的 改进 。GNS 具 
有 更 宏大 的 目标 ， 包 括 : 

。 处 理 任意 多 的 名 字 ， 为 任意 多 的 管理 组 织 提供 服务 : 例如 ,系统 应 该 能 处 理 全 世界 文档 的 

名 字 。 

。 长 生命 周期 : 在 生命 周期 中 ， 和 名 字 集 的 组 织 、 实 现 服务 的 组 件 都 会 发 生变 化 。 

。 高 可 用 性 ; 很 多 系统 依赖 名 字 服 务 ， 名 字 服 务 一 旦 崩溃 ， 系 统 就 无 法 工作 。 

。 故障 隔离 ， 局 部 故障 不 会 带 来 整个 服务 的 崩溃。 

© RARE: 一 个 大 型 的 开放 系统 很 难 使 每 一 个 组 件 都 被 系统 中 所 有 客户 信任 。 

例如 ， 全 局 名 字 服 务 [van Steen et al 1998] (包括 电子 邮件 用 户 地 址 或 文档 ) 和 Handle 系统 
[www. handle. net] ， 它 们 都 关注 提高 系统 在 大 规模 对 象 条 件 下 的 可 伸缩 性 。 第 3 章 中 介绍 的 互联 网 域 
名 系统 (DNS) 命名 了 互联 网 上 的 计算 机 (或 者 别 的 实体 ) 。 

本 节 将 以 DNS 为 例子 ， 讨 论 名 字 服 务 设计 的 主要 问题 ， 然 后 给 出 有 关 DNS 的 实例 研究 。 


13.2.1 名字 空 间 


AFEN] (name space) 是 一 个 服务 所 能 识别 的 所 有 有 效 名 字 的 集合 ， 所 谓 有 效 意味 着 服务 将 试 
图 查找 它 ， 即 使 该 名 字 并 不 对 应 于 任何 对 象 ， 即 未 被 绑 定 。 名 字 空 间 需 要 语法 定义 ， 将 有 效 与 无 效 的 
名 字 分 开 。 例 如 ， 和 名字 “…” 作 为 计算 机 的 DNS 名 是 不 可 接受 的 。 名 字 www. ckd99. net 即便 未 被 绑 
定 ， 也 是 有 效 的 名 字 。 

名 字 可 以 有 一 个 内 部 结构 ， 表 示 它 们 在 层次 化 名 字 空 间 中 的 位 置 (如 文件 系统 中 的 路 径 名 ) 或 在 
组 织 机 构 层 次 中 的 位 置 (如 互联 网 域名 ) ， 或 者 可 以 从 一 个 平面 的 数字 标识 符 集合 或 符号 标识 符 集 合 
中 选择 名 字 。 层 次 化 名 字 的 每 个 部 分 总 是 相对 于 一 个 独立 的 相对 较 小 的 上 下 文 进 行 解 析 ， 而 相同 的 名 
字 在 不 同 的 上 下 文中 可 以 有 不 同 的 含义 ， 以 此 来 满足 不 同 场合 的 使 用 。 对 于 文件 系统 ， 每 个 目录 都 代 
表 一 个 上 下 文 。 因 此 ，/etc/passwd 是 一 个 具有 两 个 部 分 的 层次 化 的 名 字 。 首 先 ，ete 相对 于 上 下 文 
“/” 或 根 (root) 进行 解析 ， 而 第 二 部 分 “/passwd” 相 对 于 上 下 文 “/etce” 被 解析 。 和 名 字 “/oldetc/ 
passwd” 可 以 有 不 同 的 含义 ， 因 为 该 名 字 的 第 二 个 部 分 在 不 同 的 上 下 文中 解析 。 类 似 地 ， 同 样 的 名 字 
“/ete/passwd” 在 两 台 不 同 的 机 器 上 ， 基 于 不 同 的 上 下 文 会 解析 到 不 同 的 文件 上 。 

层次 化 名 字 空 间 可 以 是 无 限 的 ， 所 以 系统 可 以 无 限 增 长 。 平 面 名 字 空 间 通常 是 有 限 的 ， 它 们 的 大 
小 由 名 字 所 人 允许 的 最 大 长 度 决定 。 层 次 化 名 字 空 间 另 一 个 好 处 是 可 由 不 同 的 人 管理 不 同 的 上 下 文 。 

第 1 章 介绍 了 http URL 的 结构 。URL 和 名字 空 间 也 包括 . . /images/figurel. jog 这 样 的 相对 名 。 当 一 个 
浏览 器 或 者 别 的 Web 客户 过 到 这 样 一 个 相对 名 ， 它 使 用 相对 名 被 巾 入 的 资源 来 决定 该 路 径 名 所 指 的 服 
务 器 主机 名 与 目录 。 

DNS 名 通常 被 称 为 域名 (domain name) ， 它 是 字符 串 形 式 的 。DNS 名 的 例子 有 : www. cdk5. net 
(一 台 计 算 机 ) 、net、com fil ac. uk (后 三 个 是 域名 ) 。 

DNS 名 字 空 间 具 有 层次 化 的 结构 ， 即 一 个 域名 包括 一 个 或 多 个 字符 串 ， 这 些 字符 串通 常 称 为 名 字 
成 分 (name component) 或 标签 (label) ， 并 且 用 分 隔 符 “. ”分 隔 开 来 。 尽 管 为 管理 方便 ，DNS 名 字 
空间 的 根 结 点 有 时 用 “. ” 指 代 ， 但 事实 上 ， 域 名 的 开头 与 结尾 并 没有 分 隔 符 。 和 名字 成 分 是 不 包含 
“. ”符号 的 非 空 可 打印 字符 串 。 一 般 来 说 ， 名 字 的 前 组 (prefix) 指 的 是 包含 零 个 或 多 个 完整 名 字 成 分 
的 名 字 的 最 初 一 部 分 。 例 如 ， 在 DNS H, www 和 www. cdk5 都 是 www. cdk5. net HATS. DNS 名 不 区 分 
大 小 写 ， 因 此 ，www. cdk5. net 与 WWW. CDKS. NET 的 含义 相同 。 

DNS 服务 器 不 能 识别 相对 名 ， 所 有 的 名 字 都 基于 全 局 的 根 结 点 。 然 而 ， 在 实际 实现 中 ， 客 户 软件 
会 维护 一 个 域名 表 ， 在 解析 单 部 分 域名 时 ,会 将 该 列表 自动 附加 到 单 部 分 域名 之 后 。 例 如 ， 域 
cdk5. net 中 的 名 字 www 有 可 能 指 的 是 www. cdk5. net。 在 试图 解析 www 时 ， 客 户 软件 将 默认 域名 
cdk5. net 附加 在 www 后 。 如 果 解 析 失 败 ， 则 附加 其 他 默认 域名 。 最 后 ， 将 www 作为 〈 绝 对 ) 名 解析 。 
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(在 这 个 例子 中 ， 这 个 操作 当然 会 失败 。) 另外 ， 上 其 有 多 个 部 分 的 名 字 通 常 不 做 预 处 理 ， 作 为 绝对 名 被 
送 到 DNS。 

别名 别名 (alias) 作为 另 一 个 名 字 ， 被 定义 代表 与 名 字 相 后 的 信息 ， 这 类 似 于 文件 路 径 名 之 间 
的 符号 链接 。 别 名 允许 用 更 加 方便 的 名 字 代 和 蔡 相对 较 复杂 的 名 字 。 对 于 相同 的 实体 ， 不 辣 的 人 可 以 使 
用 不 同 的 名 字 。 最 常见 的 例子 就 是 使 用 URL 缩写 ， 这 通常 用 于 Twitter 海报 和 别 的 空间 需要 额外 付费 的 
情形 下 。 例 如 ， 使 用 Web 重 定向 ，http: /bit. ly/ctqjvH Bly http: /cdk5. net/additional/rmi/ program- 
Code/ShapeListClient. java. 另 一 个 例子 ， 当 一 个 域名 已 经 定义 ,域名 系统 DNS 允许 别名 代表 另 一 个 名 
字 所 代表 的 资源 。 别 名 通常 用 来 说 明 运 行 Web 服务 器 或 文件 传输 协议 (FIP) 服务 器 的 机 器 名 字 。 例 
如 ，www. cdk5. net 是 cdk5. net 的 别名 。 这 有 一 个 好 处 就 是 客户 可 以 为 Web 服务 器 使 用 二 者 中 任 一 名 
Fo WA Web 服务 器 转移 到 另 一 台 计 算 机 上 ， 只 需 将 DNS 数据 库 的 cdk5, net 更 新 即 可 。 

命名 域 PAR (naming domain) 是 一 个 仅 有 一 个 总 的 管理 权利 来 管理 该 域 中 的 名 字 分 派 问题 的 
名 字 空 间 。 该 权威 机 构 完 全 控制 镭 些 和 名字 可 以 被 绑 定 到 域 中 ， 它 也 可 以 将 这 个 任务 委托 出 去 。 

DNS 的 域 是 域名 的 集合 。 语 法 上 ， 一 个 域 的 名 字 是 在 该 域 中 所 有 域名 的 公共 后 级 ， 除 了 公共 后 缀 
这 个 特点 ， 域 名 很 难 与 其 他 名 字 (如 计算 机 名 ) 区 分 开 来 。 例 如 ，net 是 一 个 包含 了 edk5. net 的 域 。 
注意 ，“ 域 名 ”这 个 术语 可 能 会 令 人 迷惑 ， 因 为 仅 有 一 部 分 域名 标识 了 域 〈 而 其 他 域名 则 标识 了 
计算 机 ) 。 

域 的 管理 可 以 被 移交 到 子 域 中 。 域 des. qmul ac. uk ， 即 英国 Queen Mary College (伦敦 大 学 ) 的 计 
算 机 系 可 以 包含 任何 该 系 想 要 的 和 名字。 但 des. qmul. ac. uk 域名 本 身 需 要 得 到 学 院 权威 机 构 ( 它 管理 着 
域 qmul ac. uk) 的 认同 。 类 似 地 ，qmul ac. uk 必须 得 到 已 注册 的 权威 机 构 ac. uk 的 认同 。 

管理 命名 域 ， 以 及 管理 由 名 字 服 务 使 用 的 存储 在 权威 名 字 服 务 器 上 的 权威 数据 库 ， 使 该 数据 库 保 
持 最 新 状态 ， 这 两 个 职责 是 密切 相关 的 。 通 常 ， 属 于 不 同 命名 域 的 命名 数据 存储 在 不 同 的 名 字 服 务 器 
上 ， 这 些 名 字 服 务 器 由 不 同 的 权威 机 构 管 理 。 

组 合 与 定制 名 字 空 间 DNS 提供 了 一 个 全 局 的 、 同 构 的 名字 空间 ， 在 DNS F, 无论 是 哪 台 计 算 机 
上 的 哪个 进程 进行 查询 ， 园 一 个 和 名字 总 是 指向 同一 个 实体 。 与 之 相反 ， 某 些 名 字 服 务 允 许 不 同 的 名 字 
空间 一 一 甚至 是 异 构 的 名 字 空 间 一 一 艇 人 其 中 。 而 且 ， 有 些 名 字 服 务 允 许 定制 名 字 空 间 ， 以 满足 个 别 
组 织 、 用 户 甚至 进程 的 需要 。 

AH: 在 UNIX 5 NFS 的 安装 文件 系统 的 实践 〈 见 12. 3 节 ) 中 ， 提 供 了 一 个 名 字 空 间 的 一 部 分 被 
方便 地 午 和 到 另 一 个 名 字 空 间 的 实例 。 此 刻 我 们 考虑 如 何 合并 两 个 完整 的 UNIX 文件 系统 ， 这 两 个 系 
统 在 两 台 分 别名 为 red 与 blue 的 计算 机 上 。 每 台 计 算 机 有 自己 的 根 ， 具 有 重 敬 的 文件 和 名。 例如，vetev 
passwd 在 red 上 指 的 是 一 个 文件 ， 而 在 blue 上 指 的 是 另 一 个 文件 。 合 并 两 个 文件 系统 的 最 简单 的 方法 
E: 用 一 个 “超级 根 ” 替 代 愿 来 每 台 计 算 机 的 根 ， 然 后 将 每 台 计 算 机 的 文件 系统 安装 到 该 超级 根 且 录 
下 ， 称 为 /red 与 /blue。 这 样 用 户 与 程序 可 以 将 上 文中 的 文件 分 别称 为 /red/etc/passwd 与 /blue/ ete/pass- 
wd。 然 而 ， 这 个 新 的 命名 规范 本 身 就 会 导致 在 两 台 计 算 机 上 仍然 使 用 旧名 字 /etc/passwd 的 程序 发 生 故 
障 。 一 个 解决 方法 是 ， 将 每 台 计 算 机 旧 根 下 的 内 容 仍 然 保留 ， 并 将 两 台 计 算 机 上 已 装载 的 文件 系统 / 
red 与 /blue 嵌入 〈 假 设 这 样 做 不 会 带 来 旧 根 下 的 名 字 冲 突 )。 

结论 是 我 们 总 是 可 以 通过 构造 更 高 一 级 的 根 上 下 文 来 合并 名 字 空 间 ， 但 这 样 做 会 带 来 向 后 兼容 问 
题 。 修 正 兼容 性 问题 又 会 给 我 们 带 来 混合 名 字 空 间 问题 ， 在 两 台 计 算 机 的 用 户 之 间 翻 译 旧 的 名 字 也 非 
常 不 方便 。 

异 构 性 : 分 布 式 计算 环境 (DCE) 的 名 字 空 间 [OSF 1997] PPR ARS ZA. DCE 名 字 可 
以 包含 接合 点 (junctions), REARS- NFS 5 UNIX ( 见 12.3 节 ) 中 的 安装 点 相似 ， 只 不 过 它 允 
许 安装 异 构 的 名 字 空 间 。 例 如 ， 考虑 完整 的 DCE 名 /…/dcs. qmul. ac. uk/principals/Jean. Dollimore, 名 
字 的 第 一 部 分 /…/des. qmul ac. ukv 标 识 了 一 个 称 为 单元 的 上 下 文 。 下 一 个 部 分 是 一 个 接合 点 。 例 如 ， 
接合 点 principals 是 一 个 包含 安全 主体 的 上 下 文 ,在 该 上 下 文中 可 以 查询 和 名字 的 最 后 一 个 部 分 
Jean. Dollimore。 类 似 地 ， 在 /…/dcs. qmul. ac. uk/files/pub/reports/TR2000-99 中 ， 接 合 点 files 是 一 个 对 
应 于 文件 系统 目录 的 上 下 文 。 在 该 上 下 文中 , 查询 名 字 的 最 后 一 个 部 分 pubyreports/TR2000-99。 接 合 
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点 principals 与 files 是 异 构 名 字 空 间 的 根 ， 它 们 由 异 构 名 字 服 务实 现 。 

RA: MERA NFS 文件 系统 的 例子 中 可 以 看 出 ， 在 有 些 情况 下 ， 用 户 愿意 构造 自己 的 名 字 空 
间 ， 而 不 是 共享 某 个 名 字 空间 。 文 件 系统 的 安装 使 用 户 可 以 导入 存储 在 服务 器 上 的 共享 文件 ， 而 其 他 
名 字 依 然 指向 本 地 未 共享 的 文件 ， 并 且 可 以 进行 自治 管理 。 然 而 ， 即 使 是 同一 个 文件 ， 如 果 从 不 同 的 
计算 机 访问 ， 也 会 安装 到 不 同 的 安装 点 上 ， 从 而 有 不 同 的 名 字 。 在 不 共享 整个 名 字 空 间 的 情况 下 ， 用 
户 必须 在 不 同 的 计算 机 间 番 译名 字 。 

Spring 名 字 服 务 [Radia et al. 1993] 提供 了 动态 构造 名 字 空 间 以 及 有 选择 地 共享 个 人 命名 上 下 文 
的 能 力 。 与 上 面 例子 不 同 的 是 ， 甚 至 同一 台 计算 机 上 的 两 个 不 同 的 进程 也 可 以 有 不 同 的 命名 上 下 文 。 
Spring 命名 上 下 文 是 在 分 布 式 系统 中 可 以 共享 的 第 一 类 对 象 。 例 如 ， 假 设计 算 机 red 上 的 用 户 试图 运行 
blue 上 的 一 个 程序 ， 该 程序 寻找 /etc/passwd 这 样 的 文件 路 径 ， 但 是 该 路 径 被 解析 到 red 文件 系统 上 的 
文件 ， 而 不 是 blue 上 的 文件 。 在 Spring 中 ， 可 以 通过 将 对 red 的 本 地 命名 上 下 文 的 引用 传递 给 blue 并 
将 其 作为 程序 的 名 字 上 下 文 来 达到 这 一 目的 。Plan 9 [Pike et al 1993] 也 允许 进程 具有 自己 的 文件 系 
统 名 字 空 间 。Plan 9 的 一 个 新 颖 的 特色 〔 该 特色 也 可 在 Spring 中 实现 ) 是 它 的 物理 有 目录 可 以 被 排序 并 
合并 为 一 个 逻辑 目录 。 这 样 做 的 效果 是 ， 在 单个 逻辑 目录 中 被 查询 的 名 字 会 在 后 续 的 物理 目录 中 被 查 
询 ， 直 到 查询 得 到 匹配 的 结果 ， 然 后 可 以 返回 相应 的 属性 。 这 样 做 的 好 处 是 ， 在 搜寻 程序 或 库 文件 的 
过 程 中 ， 用 户 无 需 提供 一 组 路 径 。 


13.2.2 ”名字 解析 


对 于 层次 结构 的 命名 空间 ， 名 字 解 析 通 常 是 一 个 迭代 的 过 程 ， 通 过 该 过 程 ， 名 字 被 反复 地 送 到 命 
名 上 下 文中 ,来 查找 其 涉及 的 属性 。 一 个 命名 上 下 文 或 者 直接 将 给 定 的 名 字 上 映射 到 一 组 简单 属性 中 
(例如 ， 一 个 用 户 的 属性 ) ， 或 者 将 之 映射 到 一 个 更 深层 次 的 命名 上 下 文中 ， 同 时 将 一 个 派生 名 送 到 该 
上 下文。 在 解析 一 个 名 字 时 ， 该 名 字 首 先 被 送 到 某 个 初始 命名 上 下 文中 ; 随 着 更 深层 次 的 命名 上 下 文 
以 及 派生 名 的 输出 ， 解 析 过 程 不 断 和 迭代。 在 13. 2. 1 节 的 开始 ， 我 们 以 /etc/passwd 为 例 阐述 了 该 过 程 ， 
在 此 例 中 ，etc 首先 被 送 到 上 下 文 /， 然 后 passwd 被 送 到 上 下 文 /etc。 

解析 过 程 迭 代 特 性 的 另 一 个 实例 是 别名 的 使 用 。 例 如 ， 当 请 求 DNS 服务 器 解析 诸如 
www. des. qmul. ac. uk 之 类 的 别名 时 ， 服 务 器 首先 将 该 别名 解析 到 田 一 个 域名 (在 该 例 中 为 
traffic. des. qmul. ac. uk) ， 然 后 这 个 域名 被 进一步 解析 产生 一 个 IP 地 址 。 

通常 ， 别 名 的 使 用 可 能 会 导致 名 字 空 间 带 有 循环 ， 在 这 种 情况 下 ， 解 析 过 程 将 永 不 终止 。 有 两 
个 解决 方案 ， 一 是 一 旦 到 达 解 析 次 数 的 阔 值 ， 就 放弃 解析 ; 二 是 让 管理 员 禁 止 任何 会 导致 循环 的 
别名 。 

名 字 服 务 器 与 导航 诸如 DNS 这 样 的 名 字 服 务 需 要 将 数据 存储 在 一 个 巨大 的 数据 库 中 ， 并 由 一 大 
群 人 访问 ， 因 此 通常 不 会 将 所 有 的 名 字 信息 放 在 单个 服务 器 上 。 这 样 的 服务 器 会 成 为 一 个 瓶颈 以 及 故 
障 的 临界 点 。 任 何 常用 的 名 字 服 务 都 应 该 使 用 复制 以 提高 可 用 性 。 我 们 将 看 到 ，DNS 规定 数据 库 的 任 
何 一 个 子 集 都 必须 复制 到 至 少 两 个 不 会 同时 失效 的 服务 器 上 。 

我 们 曾 提 到 ， 属 于 一 个 命名 域 的 数据 通常 被 存储 在 该 域 的 权威 管理 机 构 管理 的 本 地 名 字 服 务 器 上 。 
尽管 在 某 些 情况 下 ， 一 个 名 字 服 务 器 会 存储 多 个 域 的 数据 ， 但 数据 根据 域 的 不 同 被 分 区 到 不 同 服务 器 
上 却 是 事实 。 我 们 看 到 ， 在 DNS 中 ,大 多 数 条 目 是 有 关 本 地 计算 机 的 。 当 然 ， 也 有 些 名 字 服 务 器 存储 
更 高 的 域 (如 yahoo. com, ac. uk) 和 根 信息 。 

数据 的 分 区 意味 着 本 地 名 字 服 务 器 若 没有 其 他 名 字 服 务 器 的 帮助 ， 将 无 法 回答 所 有 的 询问 。 例 如 ， 
在 des. qmul. ac. uk 域 中 的 名 字 服 务 器 将 不 能 提供 域 cs. purdue. edu 中 的 计算 机 的 IP 地 址 ， 除 非 该 计算 
机 的 域名 被 缓存 一 一 此 时 ， 该 域名 必然 不 是 第 一 次 被 访问 。 

为 解析 一 个 名 字 ， 从 超过 一 个 名 字 服 务 器 上 定位 命名 数据 的 过 程 被 称 为 导航 (navigation) 。 客 户 
端的 名 字 解 析 软 件 代 表 客 户 进行 导航 。 它 们 在 解析 名 字 的 过 程 中 会 与 名 字 服 务 器 进行 必要 的 通信 。 它 
们 可 能 作为 库 代 码 链接 到 客户 端 ， 例 如 DNS 的 BIND 实现 (ML 13.2.3 节 ) 或 Grapevine [ birrell et 
al. 1982]。 另 一 种 方法 (如 在 X. 500 中 使 用 的 ) 是 在 一 个 独立 的 进程 中 提供 名 字 解 析 ， 而 该 进程 可 被 
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该 计算 机 上 的 所 有 客户 进程 共享 。 

DNS 支持 迭代 导航 (iterative navigation) 模型 (参见 图 13-2) 。 在 解析 一 个 名 字 时 ， 客 户 将 该 名 字 
送 到 本 地 名 字 服 务 器 ， 该 服务 器 试图 解析 之 。 若 本 地 名 字 服 
务 器 有 这 个 名 字 ， 则 立刻 返回 结果 。 如 果 没 有 这 个 名 字 ， 则 
它 会 建议 另 一 个 能 提供 帮助 的 服务 器 。 在 另 一 个 服务 器 上 继 
续 解 析 ， 进 行进 一 步 的 导航 ， 直 到 该 名 字 被 定位 或 是 发 现 并 
未 与 任何 名 字 绑 定 为 止 。 

由 于 DNS 可 以 容纳 数 百 万 个 域 的 条 目 ， 并 且 可 以 被 大 量 
的 客户 访问 ， 因 此 ， 即 使 在 根 服务 器 被 大 量 复制 的 情况 下 ， 
所 有 的 查询 都 从 根 服务 器 开始 也 是 不 可 行 的 。 将 DNS 数据 库 
划分 到 不 同 服务 器 上 的 策略 是 : 大 多 数 查询 可 在 本 地 被 满足 ， 为 解析 一 个 名 字 ， 客 户 反复 地 
其 余 的 查询 无 需 单独 解析 名 字 的 每 一 个 部 分 即 可 被 满足 。 与 名 字 服务 器 NS1~ NS3 联 系 。 
13. 2. 3 节 将 详细 描述 DNS 解析 名 字 的 方案 。 图 13-2 迭代 导航 

NFS 在 解析 文件 名 时 ， 按 每 个 部 分 进行 解析 ， 也 使 用 了 
迭代 导航 〈 参 见 第 12 章 ) 。 这 是 因为 在 解析 名 字 时 ， 文 件 服 务 可 能 会 遇 到 符号 链接 。 符 号 链接 必须 在 
客户 的 文件 系统 名 字 空 间 中 被 解释 ， 因 为 它 可 以 指向 另 一 个 服务 器 目录 中 的 文件 。 客 户 计算 机 必须 确 
定 该 服务 器 是 哪个 ， 因 为 只 有 客户 知道 安装 点 。 

在 组 播 导 航 (multicast navigation) 中 ， 客 户 向 名 字 服 务 器 组 组 播 需 解析 的 名 字 以 及 需要 的 对 象 类 
型 。 只 有 包含 命名 属性 的 服务 器 会 响应 该 请 求 。 遗 憾 的 是 ， 如 果 名 字 确 实 并 未 绑 定 到 任何 对 象 ， 则 该 
请 求 不 会 得 到 任何 响应 。Cheriton 与 Mann [1989] 描述 了 一 个 基于 组 播 的 导航 方案 ， 在 该 方案 中 ， 服 
务 器 组 中 包含 一 个 独立 的 服务 器 来 处 理 名 字 未 被 绑 定 的 情况 。 

迭代 导航 模型 的 替代 方案 是 ， 名 字 服 务 器 协调 名 字 的 解析 过 程 ， 并 将 结果 返回 给 用 户 代理 。Ma 
[1992] 区 分 了 非 递 归 式 (non-recursive) 以 及 递归 式 服 务 器 控制 的 导航 (recursive server-controlled nav- 
igation) (参见 图 13-3) 。 在 非 递 归 式 服 务 器 控制 的 导航 中 ， 任 何 名 字 服 务 器 都 可 被 客户 选中 。 该 服务 
器 使 用 上 文 描述 的 方式 ， 通 过 组 播 或 欠 代 与 其 他 对 等 服务 器 通信 ， 如 同 它 是 一 个 客户 一 样 。 在 递归 式 
服务 器 控制 的 导航 中 ， 客 户 依然 只 与 一 个 服务 器 打交道 。 如 果 服 务 器 未 存储 该 名 字 ， 则 服务 器 与 另 一 
个 存储 了 该 名 字 (EK) 前缀 的 服务 器 联系 ， 此 服务 器 接着 试图 解析 该 名 字 。 这 个 过 程 递 归 地 继续 下 
去 ， 直 到 名 字 被 解析 为 止 。 























非 递 归 式 递归 式 
服务 器 控制 的 服务 器 控制 的 


注 : 名 字 服 务 器 NS1 代 表 客 户 与 其 他 名 字 服 务 器 通信 。 


图 13-3 ” 非 递归 和 递归 的 服务 器 控制 的 导航 


若 一 个 名 字 服 务 跨越 了 不 同 的 管理 域 ， 则 在 一 个 管理 域 中 执行 的 客户 可 能 会 被 禁止 访问 另 一 个 管 
理 域 上 的 名 字 服务 器 。 此 外 ， 名 字 服 务 器 甚至 会 被 禁止 探测 在 另 一 个 管理 域 中 的 名 字 服 务 器 上 的 命名 
数据 的 部 署 。 这 样 ， 客 户 控制 的 导航 与 非 递归 式 服务 器 控制 的 导航 均 不 适用 ， 此 时 必须 使 用 递归 式 的 
服务 器 控制 的 导航 方式 。 获 得 授权 的 名 字 服 务 器 向 指定 的 名 字 服 务 器 请 求 名 字 服 务 数据 ， 该 指定 的 名 
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字 服 务 器 由 其 他 的 管理 部 门 管 理 ， 它 返回 相应 的 属性 ， 而 并 不 暴露 命名 数据 库 的 不 同 部 分 是 如 何 存 
储 的 。 

缓存 在 DNS 以 及 其 他 名 字 服 务 中 ， 客 户 端的 名 字 解 析 软 件 以 及 服务 器 维护 了 一 个 以 往 名 字 解 析 
结果 的 缓存 。 当 客户 发 出 一 个 名 字 查 询 请 求 时 ， 客 户 端 的 名 字 解 析 软 件 就 查询 它 的 缓存 ， 如 果 该 缓存 
包含 通过 上 次 查询 该 名 字 得 到 的 一 个 最 近 的 结果 ,那么 将 该 结果 返回 给 客户 ; 否则 ， 客 户 软件 将 着 手 
从 某 个 服务 器 上 寻找 结果 ， 而 服务 器 又 有 可 能 返回 缓存 在 其 他 服务 器 中 的 数据 。 

缓存 是 名 字 服 务 性 能 的 关键 ， 即 使 在 名 字 服 务 器 骨 溃 的 情况 下 ， 缓 存 也 可 以 帮助 维护 名 字 服 务 器 
以 及 其 他 服务 的 可 用 性 。 它 的 作用 非常 清晰 ， 即 通过 节省 与 名 字 服 务 器 的 通信 时 间 提 高 响应 速度 。 绥 
存 可 用 于 在 导航 路 径 上 消除 高 层 的 名 字 服 务 器 一 一 特别 是 根 服 务 嚣 ， 同 时 在 一 些 服 务 器 产生 故障 的 情 
况 下 ， 人 允许 解析 过 程 继续 进 行 。 

因为 名 字数 据 不 会 经 常 改变 ， 从 而 客户 端的 名 字 和 解析 程序 的 缓存 在 名 字 服 务 中 得 到 广泛 使 用 ， 并 
且 特 别 成 功 。 例 如 ， 计算机 或 服务 地 址 的 信息 很 可 能 会 在 几 个 月 或 几 年 内 不 变 。 然 而 ,一 个 名 字 服 务 
也 有 可 能 在 解析 过 程 中 返回 过 时 的 属性 信息 ， 例 如 过 时 的 地 址 。 


13.2.3 域名 系统 


域名 系统 是 一 个 名 字 服 务 ， 它 的 主 命名 数据 库 主要 在 互联 网 上 使 用 。 它 由 Mockapetris [ 1987 | 
(RFC 1034 和 RFC 1035) 设计 ，DNS 代替 了 原 有 的 互联 网 命名 方案 。 在 原 有 的 方案 中 ， 所 有 的 主机 名 
和 地 址 都 保存 在 一 个 中 央 主 文件 中 ， 需 要 这 些 信息 的 计算 机 通过 FIP 下载 信息 [ Harrenstien et 
al. 1985] 。 此 方案 有 以 下 三 个 缺点 : 

。 计算 机 数量 众多 时 ， 缺 乏 可 伸缩 性 。 

。 本 地 组 织 希望 管理 自己 的 命名 系统 。 

。 需要 通用 的 名 字 服 务 一 一 而 不 是 仅 查 找 计 算 机 地 址 的 名 字 服 务 。 

DNS 命名 的 对 象 主要 是 计算 机 ，IP 地 址 作为 其 属性 存储 。 本 章 中 涉及 的 命名 域 在 DNS 中 简单 地 称 
作 域 (domain) 。 然 而 原则 上 ， 所 有 的 对 象 都 能 被 命名 ， 同 时 对 象 名 字 的 结构 可 以 支持 各 种 各 样 的 实 
现 。 组 织 和 部 门 可 以 管理 自己 的 命名 数据 。 互 联网 DNS 绑 定 了 几 百 亿 个 名 字 ， 而 全 世界 的 计算 机 都 基 
于 该 DNS 查找 。 任 何 名 字 均 可 被 任何 客户 解析 ， 这 是 由 名 字数 据 库 的 层次 化 分 区 、 命 名 数据 的 复制 以 
及 缓存 来 实现 的 。 

域名 DNS 可 供 多 种 实现 使 用 ， 每 种 实现 都 可 以 拥有 自己 的 名 字 空 间 ， 但 实际 上 ， 只 有 一 种 方法 
应 用 最 广 ， 即 在 互联 网 上 使 用 的 命名 方式 。 互 联网 DNS 和 名字 空 间 既 按 组 织 分 区 也 按 地 域 分 区 。 名 字 中 
最 高 级 的 域 位 于 右 端 。 最 初 在 互联 网 上 广泛 使 用 的 顶级 组 织 域名 (也 称 作 通用 域 ) 包括 : 

e com; 商业 化 组 织 。 

e edu: 大 学 以 及 其 他 教育 机 构 。 

e gov: 美国 政府 机 构 。 

。 mil; 美国 军事 组 织 。 

。 net; 主要 的 网 络 支持 中 心 。 

。 og: 上 文 未 提 及 的 组 织 。 

。 int: 国际 组 织 。 

2000 年 年 初 ， 又 增加 了 一 些 新 的 顶级 组 织 域名 ， 如 biz 和 mobi。 现 在 ， 可 以 通过 互联 网 编号 管理 
局 (www. iana. org] 获得 包含 全 部 通用 域名 的 列表 。 

此 外 ， 每 个 国家 拥有 自己 的 域名 : 


每 个 国家 ， 尤 其 是 美国 之 外 的 其 他 国家 ,使 用 自己 的 域 来 区 分 国家 内 的 各 个 组 织 。 以 英国 为 例 ， 
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有 co. uk Al ac. uk 域 , 分 别 对 应 于 com 和 edu (ac 代表 academic community) , 
(PERE, SARK uk, doit. co. uk 这 样 的 域 也 能 在 Doit Ltd (一 家 英国 公司 ) 的 西 
班 牙 办 事 处 拥有 数据 ， 换 句 话 说， 地域 式 的 域名 仅仅 是 一 种 习惯 用 法 ,域名 事实 上 完全 独立 于 其 物理 
位 置 。 
DNS 查询 互联 网 DNS 主要 用 于 简单 的 主机 名 解析 与 电子 邮件 主机 查找 。 具 体内 容 如 下 : 
主机 名 解析 (host name- resolution): 通常 ， 应 用 程序 使 用 DNS 将 主机 名 解析 为 IP 地 址 。 例 如 ， 当 
577) 一 个 Web 浏览 器 获得 一 个 包含 了 www. des. qmul. ac. uk 的 URL 之后， 它 将 发 出 DNS 查询 ， 并 获得 相应 
的 中 地 址 。 正 如 第 4 章 指出 的 〈 如 果 此 URL 中 无 特别 说 明 ) ， 浏 览 器 使 用 HTTP 协议 与 占据 了 保留 端 
口号 的 特定 IP 地 址 的 Web 服务 器 通信 。 FTP 服务 与 SMTP 的 工作 方式 类 似 。 例 如 ， 当 FIP 客户 程序 获 
得 域名 ftp. des. qmul. ac. uk 后 ， 它 会 发 出 一 个 DNS 查询 以 获得 该 域名 的 IP 地 址 ， 然 后 使 用 TCP 协议 在 
一 个 保留 端口 上 与 服务 器 通信 。 
邮件 主机 定位 (mail host location): 电子 邮件 软件 使 用 DNS 将 域名 解析 为 邮件 主机 的 IP 地 址 ， 邮 
件 主机 用 于 接收 相应 域 的 邮件 。 例 如 ， 当 需要 解析 tom@ des. rx. ac. uk 时 ， 使 用 地 址 des. mx. ac. uk 查 
询 DNS， 类 型 指定 为 mail。 如 果 存 在 对 应 的 邮件 服务 器 ,那么 DNS 会 返回 可 接收 des. mx. ac. uk 的 邮件 
PERL IRS FIZ CA A BERRI IP 地 址 ) ，DNS 可 能 会 返回 多 于 一 个 的 域名 ， 这 样 ， 当 主 邮 件 服 
务 器 因 某 种 原因 不 可 用 时 ， 邮 件 软件 可 以 尝试 使 用 其 他 服务 器 。DNS 对 每 个 邮件 主机 均 返 回 一 个 整 型 
的 优先 值 ， 表 示 邮 件 主 机 应 被 尝试 的 顺序 。 
有 些 安装 版 本 也 包括 了 其 他 类 型 的 查询 ， 但 远 没有 上 面 两 种 查询 应 用 广泛 。 它 们 是 : 
反 向 解析 (reverse resolution); 一 些 软件 需要 通过 IP 地 址 获得 域名 。 这 与 正常 的 主机 名 查询 恰恰 
相反 。 对 于 接收 查询 的 名 字 服 务 器 ， 仅 当 IP 地 址 在 自己 的 域 中 时 才 会 应 答 。 
主机 信息 (host information); DNS 可 以 存储 主机 域名 相应 的 计算 机 的 体系 结构 类 型 与 操作 系统 信 
息 。 有 人 建议 不 应 实现 该 选项 ， 因 为 它 为 那些 试图 在 未 授权 情况 下 访问 计算 机 的 黑客 提供 了 有 用 的 
信息 。 
ARE, DNS 可 以 存储 任意 属性 。 一 个 查询 通过 域名 、 类 别 与 类 型 三 者 来 定义 。 互 联网 上 域名 的 
类 别 是 IN。 查 询 的 类 型 定义 是 否 需 要 一 个 耳 地 址 、 一 个 邮件 主机 、 一 个 名 字 服 务 器 或 其 他 类 型 信息 。 
特殊 域 in-addr. arpa 存储 的 是 下 地址， 可 以 用 于 反 向 查询 。 类 别 属性 用 于 区 分 互联 网 命名 数据 库 与 实 
验 阶段 的 DNS 命名 数据 库 。 一 个 给 定 的 数据 库 会 有 一 组 类 型 定义 ， 互 联网 数据 库 的 类 型 定义 参 
见 图 13-5。 
DNS 名 字 服 务 器 ”通过 结合 使 用 分 区 、 复 制 以 及 在 需要 地 点 的 最 近 处 缓存 命名 数据 库 等 方法 ， 可 
以 解决 伸缩 性 问题 。DNS 数据 库 分 布 在 一 个 逻辑 服务 器 网 络 上 。 每 个 服务 器 存储 命名 数据 库 的 一 部 
分 一 一 主要 是 本 地 域 的 数据 。 大 多 数 查询 涉及 本 地 域 的 计算 机 ， 并 且 由 该 域 中 的 服务 器 给 出 应 答 。 然 
而 ， 每 个 服务 器 记录 了 其 他 名 字 服 务 器 的 域名 与 地 址 ， 这 样 可 满足 对 本 地 域 以 外 对 象 查询 的 需要 。 
DNS 命名 数据 被 划分 为 区 域 ， 一 个 区 域 包含 下 列 数据 : 
。 除 那 些 由 更 低层 的 权威 机 构 管 理 的 子 域内 的 数据 外 ， 一 个 域 里 名 字 的 所 有 属性 数据 。 例 如 ， 一 - 
个 区 域 除 了 包括 每 个 系 ( 如 计算 机 科学 系 dcs. qmul. ac. uk) 持 有 的 数据 外 ， 还 包括 属于 伦敦 大 
578 学 Queen Mary College (qmul. ac. uk) 的 数据 。 
e 至 少 两 台 名 字 服 务 器 的 名 称 与 地 址 ， 这 些 服务 器 提供 该 区 域 的 权威 (authoritative) 数据 ， 而 且 
数据 的 版 本 被 认为 是 最 新 的 。 
。 一 些 名 字 服 务 器 的 名 字 ， 这 些 名 字 服 务 器 存储 了 被 委托 的 子 域 的 权威 数据 ， 以 及 给 出 了 服务 器 
IP 地址 后 的 一 些 “ 粘 合 ”数据 。 
。 区 域 管理 参数 ， 例 如 管理 区 域 数据 缓存 与 复制 的 参数 。 
一 个 服务 器 可 以 拥有 零 个 或 多 个 区 域 的 权威 数据 。 为 了 在 一 个 服务 器 发 生 故 障 的 情况 下 ， 名 字数 
据 依 然 可 用 ，DNS 体系 结构 规定 每 个 区 域 必须 至 少 在 两 人 台 服 务 器 上 复制 。 
系统 管理 员 将 一 个 区 域 的 数据 送 人 一 个 主 控 文 件 中 ， 此 文件 是 该 区 域 权威 数据 的 来 源 。 有 两 种 服务 器 
可 提供 权威 数据 : 主 服务 器 (primary server 或 者 master server) 直接 从 本 地 主 控 文件 中 读 取 区 域 数 据 。 次 服 
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务 器 (secondary server) 从 主 服务 器 下 载 区 域 数据 。 它 们 周期 性 地 与 主 服务 器 通信 ， 以 检验 次 服务 器 上 的 版 
本 是 否 与 主 服务 器 上 数据 版 本 的 一 致 。 若 次 服务 器 上 的 版 本 过 期 ， 则 主 服 务 器 将 最 新 的 版 本 发 送 给 它 。 管 理 
员 将 次 服务 器 检查 过 期 的 频率 作为 一 个 区 域 参数 设 定 ， 通 常 它 的 值 是 一 天 一 次 或 两 天 一 次 。 

任何 服务 器 均 可 缓存 其 他 服务 器 的 数据 ， 以 避免 在 解析 名 字 时 再 与 那些 服务 器 联系 请 求 数 据 。 这 
样 做 的 附带 条 件 是 当 客 户 收 到 缓存 数据 时 ， 需 被 告知 数据 是 不 可 信 的 。 区 域 中 的 每 个 条 目 有 一 个 存活 
期 。 当 一 个 非 权威 服务 器 缓存 来 自 权 威 服务 器 的 数据 时 ， 它 会 记录 存活 期 。 它 将 仅 在 存活 期 内 向 客户 
提供 缓存 数据 ; 对 于 超过 存活 期 后 的 查询 ， 服 务 器 需要 重新 与 权威 服务 器 联系 ， 核 对 它 的 数据 。 这 是 
一 个 有 用 的 特征 ， 它 减少 了 网 络 流量 ， 同 时 保留 了 系统 管理 员 的 灵活 性 。 在 预料 到 属性 不 会 经 常 改变 
时 ， 可 以 给 它们 赋予 相当 长 的 存活 期 。 如 果 管 理 员 知道 属性 可 能 很 快 就 会 改变 ， 那么 他 /她 将 相应 地 减 
少 属性 的 存活 期 。 

图 13-4 给 出 了 2001 年 时 DNS 数据 库 的 部 分 安排 。 即 使 由 于 系统 的 重新 配置 而 导致 一 些 数据 发 生 
变化 ， 这 个 例子 依然 能 说 明 问题 。 注 意 ， 在 实际 中 ，a.root- servers.net 这 样 的 根 服务 器 除了 保存 第 一 级 
域名 外 ， 也 会 保存 多 个 级 别 的 域 条 上 且 。 这 样 ， 在 域名 被 解析 时 ， 可 以 降低 导航 的 次 数 。 根 名 字 服 务 器 
拥有 顶级 域名 字 服 务 器 的 权威 条 目 。 它 们 也 同时 是 com, edu 等 常用 顶级 域 的 权威 名 字 服 务 器 。 然 而 ， 
BA, FRE BAR RMS FURS. BIN, uk 域 有 若干 名 字 服 务 嚣 ， 其 中 一 个 被 称 为 nsl.nic.net。 
这 些 名 字 服 务 器 知道 英国 二 级 域 (如 ae.uk 与 co.uk) 的 名 字 服 务 器 。 域 ac.uk 的 名 字 服 务 器 知道 本 国 所 
有 大 学 域 的 名 字 服 务 嚣 ， 例 如 qmul.ac.uk 或 ic.ac.ak。 在 某 些 情况 下 ， 一 个 大 学 域 将 某 些 管理 权 委派 给 
一 个 子 域 ， 如 des.qmul.ac.uk, 
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注 : 名 字 服 务 器 名 用 斜体 ， 而 相应 的 域 在 括号 中 。 葡 头 指示 了 名 字 服 务 器 入 口 。 
图 13-4 DNS ZFA i 


根 域 信息 由 主 服务 器 复制 到 若干 次 服务 器 上 。 尽 管 如 此 ， 一些 根 服 务 器 依然 要 做 到 每 秒 接收 约 
1000 个 查询 。 所 有 DNS 服务 器 都 会 存储 一 个 或 多 个 根 名 字 服 务 器 的 地 址 ， 这 些 服 务 器 的 地 址 通常 不 会 
改变 。DNS 服务 器 通常 也 会 存储 父 域 的 一 个 权威 服务 器 的 地 址 。 查 询 www.berkeley.edu 这 样 的 具有 三 个 
部 分 的 域名 ， 最 坏 情 况 下 需要 两 步 导 航 ; 第 一 步 是 向 存储 了 合适 的 名 字 服 务 器 条 目的 根 服务 器 发 出 请 
求 ， 第 二 步 则 向 第 一 次 查询 得 到 的 服务 器 发 出 请 求 。 

参见 图 13-4， 域 名 jeans- pc.des.qmulac-uk 可 以 使 用 本 地 服务 器 dns0.dcs.qmul.ac.uk ， 从 域 des.qmul.ac.uk 
查找 到 。 该 服务 器 未 存储 Web 服务 器 www.ic.ac.uk 的 任何 条 目 ， 但 它 缓存 了 ic.ac.uk 的 条 目 〈 从 权威 服务 
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器 nsO.ja.net 中 获得 ) 。 服 务 器 dns0-doc.ic.ac.uk 可 用 于 解析 全 名 。 

导航 与 查询 处 理 ”DNS 客户 被 称 为 解析 器 (resolver) ， 通 常 被 实现 为 库 代 码 。 它 接收 查询 后 ， 将 
查询 格式 化 为 符合 DNS 协议 格式 的 消息 ， 再 与 一 个 或 多 个 名 字 服 务 器 通信 。 通 信 时 一 般 使 用 简单 的 请 
求 -应 答 协 议 ， 通 常情 况 下 使 用 互联 网 的 UDP 包 (DNS 服务 器 使 用 的 是 一 个 已 知 的 端口 号 ) 。 解 析 器 
有 可 能 超时 ， 必 要 时 需要 重 发 查询 。 解 析 器 可 被 配置 成 与 一 组 带 优 先 级 的 初始 名 字 服 务 器 联系 ， 以 应 
付 某 个 或 某 几 个 服务 器 不 可 用 的 情况 。 

DNS 体系 结构 能 够 处 理 递归 导航 与 适 代 导航 两 种 情况 。 当 与 名 字 服 务 器 联系 时 ， 解 析 器 指定 需要 
何 种 类 型 的 导航 。 然 而 ， 名 字 服 务 器 并 不 一 定 实现 递归 导航 。 正 如 上 面 所 指出 的 ， 和 迭代 导航 会 占用 服 
务 器 线程 ， 这 意味 着 其 他 请 求 会 被 延迟 。 

为 节省 网 络 通信 ，DNS 协议 允许 将 多 个 查询 打包 到 一 个 请 求 消息 中 ， 相 应 地 ， 名 字 服 务 器 可 以 在 
应 管 消息 中 发 送 多 个 回答 。 

资源 记录 ”区域 数据 以 多 种 固定 类 型 的 资源 记录 形式 存储 到 名 字 服 务 器 的 文件 中 。 对 于 互联 网 数 
HERE, 包含 图 13-5 所 示 的 类 型 。 每 条 记录 指 的 是 一 个 域名 〈 在 图 中 未 表示 出 来 ) 。 除 了 AAAA 条 日 用 
来 存储 IPV6 地 址 信息 ，A 存储 IPV4 地 址 信息 ，TXT 主要 是 为 了 存储 域名 的 任 一 意 信息 之 外 ， 表 中 的 
条 目 大 多 在 上 文 已 提 及 。 














emaa 含义 主要 内 容 

A 计算 机 地 址 IPS 
AAA 计算 机 地 址 (IPY6) IPv6 号 
NS 权威 名 字 服 务 器 服务 器 的 域名 
CNAME 别名 的 标准 名 别名 的 域名 
SOA 标识 了 一 个 区 域 数 据 的 开始 ” 管理 该 区 域 的 参数 
WKS 已 知 服务 的 描述 服务 名 与 协议 的 列表 
PTR 域名 指针 〈 反 向 查找 ) 域名 
HINFO 主机 信息 机 器 体系 结构 与 操作 系统 
MX 邮件 交换 < 优先 级 ， 主 机 > 列表 
TXT 文本 字符 串 任意 文本 











图 13-5 DNS 资源 记录 


一 个 区 域 的 数据 从 一 个 SOA 类 型 的 记录 开始 ， 该 记录 包含 区 域 参数 ， 参 数 可 指定 版 本 号 以 及 次 服 
务 器 刷新 副本 的 频率 等 。SOA 类 型 的 记录 后 紧 跟着 类 型 为 NS 的 记录 集合 ， 用 于 指定 域 的 名 字 服 务 器 ， 
接着 是 类 型 为 MX 的 记录 集合 ， 用 于 指出 邮件 主机 的 优先 级 和 域名 。 例 如 ， 域 dcs.qmul.ac.uk 的 数据 库 
中 记录 的 一 部 分 如 图 13-6 所 示 ， 记 录 中 的 1D 表示 存活 期 为 1 天 : 








域名 存活 其 类 别 类 型 i | 
dcs.qmul.ac.uk ID IN NS dns0 
dcs.qmul.ac.uk ID IN NS dnsl 
des.qmul.ac.uk ID IN MX 1 mail.qmul.ac.uk 
dcs.qmul.ac.uk ID IN MX 2 mail2.qmul.ac.uk 








图 13-6 DNS 区 域 数据 记录 


后 面 的 类 型 为 A 的 记录 会 给 出 两 个 名 字 服 务 器 一 一 dns0 与 dnsl 的 IP 地址 。 邮 件 主机 以 及 第 三 个 
名 字 服 务 器 的 全 地 址 在 域 相应 的 数据 库 中 给 出 。 

对 于 des.qmul.ac.uk 这 样 较 低 层 的 区 域 ， 数 据 库 剩 下 的 主要 记录 是 A 类 型 的 ， 它 将 计算 机 的 域名 映 
射 到 一 个 也 地 址 。 对 于 众所周知 的 服务 ， 数 据 库 可 能 会 包含 一 些 别名 ， 例 如: 


域名 存活 期 类 别 类 型 值 
www 1D IN CNAME traffic 
traffic 1D IN A 138. 37. 95. 150 
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如 果 该 域 还 有 子 域 ， 那 么 将 会 有 更 多 的 NS 类 型 的 记录 ， 这 些 记录 指定 了 子 域 的 名 字 服 务 器 ， 而 这 
些 服务 器 也 会 有 自己 的 A 类 型 的 条 目 。 例 如 ，qmul.ac.uk 的 数据 库 对 于 子 域 dcs.qmul.ac.uk 的 名 字 服 务 
器 ， 会 有 下 列 记录 : 








域名 存活 期 类 别 类 型 值 
des 1D IN NS dns0).des 
dns0).des 1D IN A 138. 37. 88. 249 
des 1D IN NS dnsl.des 


dnsl.dcs 1D IN A 138. 37. 94. 248 


名 字 服 务 器 的 负载 共享 ， 对 于 某 些 站 点 ， 诸 如 Web、FTP 等 常用 的 服务 由 同一 网 络 上 的 一 组 计算 
机 同时 支持 。 在 这 种 情况 下 ， 该 组 的 每 个 成 员 使 用 的 是 同一 个 域名 。 当 一 个 域名 由 多 台 计 算 机 共享 时 ， 
名 字 服 务 器 对 该 组 的 每 台 计 算 机 都 有 一 条 记录 ， 记 录 其 下 地 址 。 对 于 名 字 会 涉及 多 条 记录 的 查询 ， 和 名 
字 服 务 器 根据 循环 调度 方法 返回 下 地址。 这 样 ， 后 续 的 客户 访问 被 分 发 到 不 同 的 服务 器 ， 以 便服 务 器 
之 间 能 均衡 负载 。 而 缓存 可 能 会 破坏 这 种 方案 ， 因 为 一 旦 一 个 非 权 威 的 名 字 服 务 器 或 客户 在 它 的 缓存 
中 包含 了 某 个 服务 器 的 卫 地址 ， 那 么 它 会 持续 地 使 用 该 地 址 。 为 消除 这 种 后 果 ， 资 源 记录 一 般 给 定 较 
短 的 存活 期 。 

DNS 的 BIND 实现 Berkeley 互联 网 域名 系统 (Berkeley Internet Name Domain, BIND) 是 运行 
UNIX 的 计算 机 的 DNS 实现 。 客 户 程 序 通过 链 人 和 人 BIND 软件 库 作 为 名 字 服 务 的 解析 器 。DNS BF IRS ae 
所 在 的 计算 机 运行 已 命名 的 守护 进程 。 

BIND 允许 使 用 三 类 名 字 服 务 器 : 主 服务 器 、 次 服务 器 以 及 仅 提 供 缓存 功能 的 服务 器 。 已 命名 的 程 
序 根据 配置 文件 内 容 仅 实现 三 类 中 的 一 类 服务 器 。 前 两 类 服务 器 上 文 已 介绍 过 。 缓 存 服务 器 从 一 个 配 
置 文件 中 读 取 足够 多 的 权威 服务 器 的 名 字 与 地 址 用 于 解析 。 因 此 ， 缓 存 服务 器 仅 存 储 这 些 数据 以 及 在 
为 客户 解析 名 字 时 所 积累 的 数据 。 

一 个 组 织 通常 具有 一 个 主 服务 器 以 及 在 站 点 的 不 同 局 域 网 段 提供 名 字 服 务 的 一 个 或 多 个 次 服务 器 。 
另外 ， 每 个 计算 机 常常 运行 自己 的 缓存 服务 器 ， 以 降低 网 络 开销 ， 加 速 响应 时 间 。 

关于 DNS 的 讨论 ”考虑 到 互联 网 命名 数据 的 数量 以 及 网 络 的 规模 ，DNS 的 互联 网 实现 获得 了 较 短 
的 平均 查询 响应 时 间 。 我 们 看 到 ， 获 得 上 述 效果 是 通过 对 命名 数据 进行 分 区 、 复 制 以 及 缓存 而 达到 的 。 
命名 的 对 象 主要 是 计算 机 、 名 字 服 务 器 以 及 邮件 主机 。 计 算 机 (主机 ) 名 到 下 地 址 的 映射 以 及 名 字 服 
务 器 与 邮件 主机 的 标识 等 信息 的 改变 不 太 频 繁 ， 因 此 ， 缓 存 与 复制 可 在 一 个 相对 宽松 的 环境 中 进行 。 

DNS 人 允许 命名 数据 不 完全 一 致 ， 即 当 命名 数据 修改 时 ， 其 他 服务 器 在 几 天 时 间 内 仍 会 给 提供 客户 
过 期 的 信息 ， 这 里 没有 使 用 第 18 章 中 研究 的 复制 技术 。 然 而 ， 只 有 在 客户 试图 使 用 过 期 信息 的 情况 
下 ， 不 一 致 性 才 会 产生 不 好 的 后 果 。DNS 自己 未 指出 如 何 探测 过 期 数据 。 

除 计 算 机 外 ，DNS 还 命名 了 一 种 特殊 的 服务 : 基于 每 个 域 的 邮件 服务 。DNS 假设 在 每 个 指定 的 域 
中 仅 有 一 个 邮件 服务 器 ， 因 此 ， 用 户 无 需 显 式 地 用 名 字 指 出 服务 。 电 子 邮 件 应 用 在 与 DNS 服务 器 联系 
时 ， 通 过 使 用 合适 的 查询 类 型 ， 透 明 地 选择 该 服务 。 

总 而 言 之 ，DNS 存储 的 不 同类 型 的 名 字数 据 是 非常 有 限 的 ， 但 这 在 诸如 电子 邮件 这 样 的 应 用 中 已 
经 足够 了 ， 因 为 在 电子 邮件 这 类 应 用 中 可 以 将 它们 自己 的 名 字 机 制 加 到 域名 之 上 。DNS 数据 库 作 为 对 
大 量 互联 网 用 户 有 用 的 、 最 低层 的 公共 命名 者 的 地 位 应 该 是 值得 质疑 的 。DNS 并 不 是 为 互联 网 设计 的 
唯一 名 字 服 务 ， 它 与 本 地 名 字 与 目录 服务 共存 ， 这 两 种 服务 都 存储 了 与 局 部 需求 有 关 的 数据 。( 如 Sun 
的 网 络 信息 服务 《该 服务 存储 了 加 密 的 口令 ) 或 者 微软 的 活动 目录 服务 [www.microsoft.com I] ， 该 服 
务 存储 了 一 个 域 中 所 有 资源 的 详细 信息 。) 

DNS 设计 的 一 个 潜在 的 问题 是 ， 它 的 设计 过 于 严格 ， 很 难 改 变 它 的 名 字 空 间 的 结构 ， 同 时 ， 缺乏 
定制 名 字 空 间 以 满足 本 地 需求 的 能 力 。 在 13. 4 节 的 全 局 名 字 服 务 的 实例 研究 中 ， 考 虑 了 命名 设计 在 这 
些 方面 的 需求 。 在 此 之 前 ， 我 们 先 来 介绍 目录 服务 。 
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13.3 目录 服务 


我 们 已 描述 了 名 字 服 务 如 何 存储 < 名 字 ， 属 性 > 对 集合 以 及 如 何 通 过 名 字 查 找 属性 。 很 自然 地 ， 
我 们 会 考虑 上 述 情况 的 另 一 面 ， 即 将 属性 作为 查找 的 关键 字 。 在 这 些 服务 中 ， 文 本 名 仅仅 被 看 做 是 一 
个 属性 。 有 时 ， 用 户 希 望 找到 某 一 个 人 或 资源 ， 他 不 知道 对 方 的 名 字 ， 仅 知道 对 方 的 一 些 属性 。 例 如 ， 
一 个 用 户 可 能 会 问 :“ 电 话 号 码 为 020-555 9980 的 用 户 名 是 什么 ?” 有 时 ， 用 户 需 要 一 个 服务 , 但 只 要 
服务 可 以 被 方便 地 访问 ， 用 户 并 不 关注 系统 中 的 哪个 实体 提供 了 该 服务 。 例 如 ， 用 户 会 问 :“ 本 大 厦 的 
哪 台 计算 机 是 运行 了 MacOs X 操作 系统 的 Macintosh 机 ?” 或 者 “我 在 哪儿 可 以 打印 一 个 高 分 辩 率 的 彩 
色 图 像 ?” 

具有 下 列 功 能 的 服务 称 为 目录 服务 (directory service): 存储 了 一 组 名 字 和 属性 的 绑 定 ， 条 目的 查 
找 基于 属性 规范 。 目 录 服 务 的 例子 有 : 微软 的 活动 目录 服务 、X. 500 以 及 它 相关 的 LDAP (在 13.5 节 
描述 ) Univers [ Bowman et al. 1990] 和 Profile [ Peterson 1988 ] 。 目 录 服 务 有 时 也 称 为 黄页 服务 
(yellow pages service) ， 而 传统 的 名 字 服 务 被 称 为 白 页 服务 (white pages service) ， 这 与 不 同类 型 的 电话 
短 目 录 相 似 。 目 录 服 务 有 时 也 被 称 为 基于 属性 的 名 字 服 务 。 

目录 服务 返回 满足 特定 属性 的 所 有 对 象 的 属性 集合 。 例 如 , “TelephoneNumber =020-555 9980” 这 
样 的 请 求 会 返回 | ‘Name = John Smith’, ‘TelephoneNumber = 020-555 9980’ ，“emailAdqress = john@ 
dcs.gormenghastac.uk' ，… 。 客 户 会 指定 感 兴趣 的 属性 子 集 ， 例 如 ， 仅 返回 匹配 对 象 的 邮件 地 址 。 
X. 500 以 及 其 他 目录 服务 也 允许 通过 传统 的 层次 型 文本 名 查找 对 象 。 将 在 9. 4 节 描 述 的 统一 目录 和 发 
MEZ (UDDI) 提供 了 关于 各 个 机 构 以 及 它们 提供 的 服务 的 信息 的 白 页 和 黄页 服务 。 

除了 UDDI， 发 现 服务 (discovery service) 通常 特 指 用 于 自发 网 络 环境 下 设备 提供 的 服务 的 目录 服 
务 。 正 如 在 1.3.2 节 中 所 述 ， 自 发 网 络 中 的 设备 连接 与 断 连 是 不 可 预测 的 。 发 现 服务 与 其 他 目录 服务 
的 本 质 区 别 在 于 一 般 目 录 服 务 的 地 址 通常 是 众所周知 的 ， 而 且 在 客户 端 是 预先 配置 好 的 。 但 是 ， 在 自 
发 网 络 环境 下 ， 一 个 设备 会 随时 加 入 ， 这 就 会 导致 组 播 导 航 ( 至少 这 个 设备 第 一 次 访问 这 个 本 地 发 现 
服务 时 会 这 样 ) 。19. 2. 1 节 会 详细 讨论 发 现 服 务 。 

属性 用 于 指定 对 象 显然 比 名 字 更 有 效 。 在 不 知道 名 字 的 情况 下 ， 可 以 通过 编写 程序 来 ， 根 据 精 确 
的 属性 规范 选择 对 象 。 属 性 的 另 一 个 优点 是 不 会 将 组 织 机 构 内 部 的 结构 暴露 给 外 界 ， 而 使 用 组 织 机 构 
划分 的 名 字 会 有 这 种 风险 。 然 而 ， 使 用 文本 名 相对 简单 ， 这 使 得 在 很 多 应 用 中 ， 名 字 服 务 不 可 能 被 基 
于 属性 的 命名 方法 替代 。 


13.4 实例 研究 : 全 局 名 字 服 务 


全 局 名 字 服 务 (CNS) 是 由 Lampson 与 DEC 系统 研究 中 心 的 同事 [Lampson 1986] 设计 与 实现 的 ， 
它 用 于 提供 资源 定位 、 邮 件 寻 址 以 及 认证 等 功能 。GNS 的 设计 目标 已 在 13. 1 节 的 最 后 列 出 ， 这 些 目标 
反映 的 事实 是 : 互联 网 使 用 的 名 字 服 务必 须 支持 一 个 名 字数 据 库 ， 该 数据 库 可 以 扩展 到 包含 数 百 万 台 
计算 机 的 名 字 以 及 数 十 亿 用 户 的 邮件 地 址 。GNS 的 设计 者 也 意识 到 ， 名 字数 据 库 可 能 会 有 很 长 的 生命 
周期 ， 它 必须 在 规模 由 小 变 大 以 及 底层 网 络 发 展 的 情况 下 有 效 地 工作 。 在 此 过 程 中 ， 名 字 空 间 的 结构 
可 以 改变 以 反映 组 织 结构 的 变化 。 名 字 服 务必 须 允 许 其 中 的 个 人 、 组 织 、 小 组 的 名 字 发 生变 化 。 除 此 
以 外 ， 也 应 允许 一 个 公司 被 男 一 个 公司 接管 时 ， 名 字 结 构 发 生变 化 。 在 本 节 中 ， 我 们 重点 描述 允许 这 
些 变化 的 设计 要 点 。 

由 于 GNS 可 能 在 大 规模 分 布 式 环境 中 运行 ， 具 有 海量 命名 数据 库 ， 因 此 缓存 的 使 用 成 为 设计 要 
点 ， 在 这 种 情况 下 维护 数据 库 条 目的 所 有 副本 的 完全 一 致 性 就 变 得 困难 。 决 定 采 取 的 缓存 一 致 性 策略 
基于 下 面 的 假设 : 数据 库 的 更 新 将 是 非 频繁 的 ， 而 因为 客户 可 以 探测 和 修复 已 过 期 命名 数据 的 使 用 ， 
所 以 慢 速 发 送 数据 更 新 是 可 以 接受 的 。 

GNS 管理 的 名 字数 据 库 由 一 个 包括 名 字 与 值 的 目录 树 构成 。 目 录 命名 方式 可 以 是 相对 于 根 或 相对 
于 某 个 工作 目录 的 多 部 分 路 径 名 ， 这 与 UNIX 文件 系统 的 文件 名 很 相似 。 每 个 目录 被 赋予 一 个 整数 作 
为 唯一 的 目录 标识 符 (Directory Identifier, DI). A, 我 们 使 用 斜体 字 表示 目录 的 DI, 如 EC 是 EC 
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目录 的 标识 。 目 录 包 含 了 一 组 名 字 与 引用 。 目 录 树 的 叶子 中 存储 的 值 被 组 织 成 值 桂 ， 这 样 与 名 字 相 关 
的 属性 可 以 是 结构 化 的 值 。 

GNS 中 的 名 字 有 两 个 部 分 : < 目录 名 ， 值 名 > 。 第 一 部 分 标识 了 一 个 目录 ， 而 第 二 部 分 指 的 是 值 
树 或 是 值 树 的 一 部 分 。 例 如 ， 参 考 图 13-7， 在 图 中 为 说 明 方便 ，DI 都 是 小 整数 ， 尽 管 在 实际 中 为 保证 
唯一 性 ，DI 会 从 很 广 的 整数 范围 中 选择 。 目 录 QMUL 下 的 用 户 PeterSmith 的 属性 会 存储 在 一 个 名 为 
<EC/UK/AC/QMUL, Peter.Smith > 的 值 树 中 。 该 值 树 包含 一 个 口令 和 多 个 邮件 地 址 ， 口 令 可 以 通过 
<EC/UK/AC/QMUL, Peter.Smith/password > 方式 来 引用 ， 而 每 个 邮件 地 址 都 作为 值 树 的 单独 结 点 ， 以 
<EC/UK/AC/QMUL, Peter.Smith/mailboxes > 作为 结 点 名 列 出 。 

目录 树 被 分 区 后 存储 在 多 个 服务 器 中 ， 每 个 分 区 又 由 多 台 服 务 器 复制 。 首 先 要 维护 在 两 个 或 多 个 
并 行 修改 发 生 时 树 的 一 致 性 。 例 如 ， 两 个 用 户 试图 同时 用 同一 名 字 创 建 一 个 条 目 ， 这 时 应 该 仅 有 一 人 
能 成 功 。 复 制 目录 带 来 了 另 一 个 一 致 性 问题 ， 通 过 一 个 能 够 保证 最 终 一 致 性 的 异步 更 新 分 布 式 算 法 能 
解决 该 一 致 性 问题 ， 但 不 能 保证 所 有 的 副本 都 是 最 新 的 。 

适应 改变 “现在 我 们 探讨 与 适应 名 字数 据 库 的 增长 和 改变 有 关 的 设计 方面 。 在 客户 与 管理 员 层 ， 
可 以 通过 正常 的 方式 扩展 目录 树 来 适应 增长 。 但 我 们 可 能 会 集成 两 个 原来 分 离 的 GNS 名 字 树 。 例 如 ， 
我 们 如 何 将 图 13-7 中 的 EC 目录 下 的 数据 库 与 NORTH AMERICA 数据 库 进 行 集成 ? 图 13-8 显示 了 在 要 
合并 的 树 的 根 之 上 ， 引 入 了 新 根 WORLD。 这 个 技术 非 DI:599 (EC) 
常 简单 直观 ， 但 对 继续 使 用 集成 前 的 “ 根 ” 作 为 名 字 的 | | 
客户 有 什么 影响 呢 ? Pld, </UK/AC/QMUL, Per- pisá UR ERN peg 
ter.Smith > 是 在 集成 之 前 客户 使 用 的 名 字 。 它 是 一 个 绝 | | | | | | | 
对 名 (因为 它 以 “/” 开 始 ), 但 根 指 的 是 EC， 而 不 是 cae Me 
WORLD, EC 4 NORTH AMERICA 是 工作 根 ， 工 作 根 是 | | | 
一 个 初始 上 下 文 ， 这 时 必须 查询 以 根 “/ ”开始 的 和 名字。 

唯一 目录 标识 符 的 存在 可 用 于 解决 这 个 问题 。 每 个 “a | 
程序 的 工作 根 必须 作为 执行 环境 的 二 部 分 “〈 与 一 个 程序 
的 工作 目录 相同 )。 当 一 个 在 欧盟 的 客户 使 用 形 如 
</UK/AC/QMUL，Perter.Smith > 的 名 字 时 ， 它 的 本 地 
用 户 代理 由 于 知道 它 的 工作 根 ， 会 在 名 字 前 添加 目录 标 Alpha Beta 
识 符 EC (#599 ) ， 从 而 构造 出 名 字 < #599/UK/AC/ a 
QMUL, Perter.Smith > 。 用 户 代 理 在 一 个 对 GNS 服务 器 
的 查询 请 求 中 发 送出 该 派生 名 。 用 户 代 理 对 指向 工作 目 图 13-7 GNS 中 用 户 Peter. Smith 的 
录 的 相对 名 使 用 相似 的 方法 。 了 解 新 的 配置 的 客户 也 会 目录 树 和 值 树 
向 GNS 服务 器 提供 绝对 名 ， 它 指向 包含 了 所 有 目录 标识 
符 的 概念 上 的 超 根 目录 ， 例 如 ，< WORLD/EC/UK/ AC/QMUL, Peter.Smith > ， 但 设计 无 法 假设 所 有 的 
客户 考虑 到 该 变化 而 被 更 新 。 


QMUL 
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mailboxes password 
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DI: 633 (WORLD) 


已 知 目录 : 

#599=#633/EC 2 | | 

#642=#633/NORTH AMERICA EC NORTH AMERICA 
DI:599 DI:642 


图 13-8 在 一 个 新 根 下 合并 树 
上 述 技术 解决 了 逻辑 问题 ， 它 甚至 在 插 人 一 个 新 的 真实 根 的 情况 下 ， 依 然 允 许 用 户 以 及 客户 程序 
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继续 使 用 已 定义 的 相对 于 旧 根 的 名 字 。 但 这 样 做 产生 了 一 个 实现 问题 ,在 包含 上 百 万 目录 的 分 布 式 名 
字数 据 库 中 ,， 若 仅 给 定 挡 99 这 样 的 目录 标识 符 ，GNS 服务 如 何 定 位 一 个 目录 ? CNS 的 解决 方案 是 在 名 
字数 据 库 的 当前 真实 根 下 包含 一 个 表 ， 称 为 “已 知 目录 ” 表 ， 该 表 列 出 了 所 有 作为 工作 根 使 用 的 目 
R, WEC, 一 旦 名 字数 据 库 真实 的 根 发 生 改 变 ， 如 图 13-8 所 示 ， 就 会 向 所 有 CNS 服务 器 通知 真实 根 
的 新 位 置 。 然 后 它们 可 使 用 常用 方式 解释 WORLD/EC/UK/AC/QMUL (指向 真实 根 ) 形式 的 名 字 ， 也 
可 使 用 “已 知 目录 ” 表 将 档 99/UK/AC/QMUL 格式 的 名 字 翻 译 成 以 真实 根 开始 的 完全 路 径 名 。 

GNS 也 支持 数据 库 的 重 构 ， 以 适应 组 织 变化 。 假 设 美国 成 为 欧盟 的 一 部 分 ， 图 13-9 给 出 了 新 的 目 
录 树 。 但 如 果 US 子 树 仅 被 移 到 EC 目录 下 ， 以 WORLD/NORTH AMERICA/US 开始 的 和 名字 将 无 法 继续 
THE. GNS 采取 的 方法 是 增加 一 个 “符号 链接 ”替代 原 有 的 US 条 目 〈 见 图 13-9 中 加 黑 的 一 部 分 )。 
GNS 目录 查找 过 程 将 链接 重 定向 到 新 位 置 上 的 US 目录 。 


DI:633 "M 


已 知 目录 : 
#599=#633/EC a 
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图 13-9 重 构 目 录 


GNS 的 讨论 GNS 由 Grapevine [Birrell et al. 1982] 以 及 Clearinghouse [ Opeen and Dalal 1983] 发 
展 而 来 ， 这 两 个 系统 是 Xerox Corporation 成 功 开发 的 主要 面向 邮件 发 送 名 字 系 统 。GNS 成 功 地 解决 了 可 
伸缩 性 与 可 配置 性 问题 ,但 合并 与 移动 目录 树 采 用 的 方法 导致 一 个 数据 库 (“已 知 目录 ” 表 ) 必须 在 
每 个 结 点 被 复制 。 在 大 规模 的 网 络 中 ， 重 配置 可 以 在 每 个 层次 上 发 生 ， 而 该 表 可 能 会 增长 到 很 大 ， 这 
与 可 伸缩 性 的 目标 相 冲 突 。 


13.5 实例 研究 : X.500 目录 服务 


X. 500 是 13.3 节 所 定义 的 目录 服务 。 它 可 以 按 传统 的 名 字 服 务 的 使 用 方式 使 用 ,但 它 通常 用 于 满足 描 
述 性 的 查询 ， 并 用 来 发 现 其 他 用 户 或 系统 资源 的 名 字 与 属性 。 在 网 络 用 户 、 组 织 机 构 以 及 系统 资源 目录 下 ， 
用 户 可 能 会 有 各 种 搜索 与 浏览 需求 ， 以 获取 该 目录 包含 的 实体 的 信息 。 这 种 服务 的 使 用 有 可 能 非常 的 分 散 。 
查询 的 不 同 导致 了 目录 服务 的 不 同 使 用 方法 ， 可 以 使 用 与 查询 电话 适 相 似 的 方法 ,例如 通 过 简单 的 “ 白 页 ” 
查询 获得 一 个 用 户 的 电子 邮件 地 址 ; 或 是 一 个 “黄页 ”查询 ， 例 如 获得 一 个 专修 某 种 汽车 的 修 车 厂 的 名 字 
与 电话 号 码 ， 再 如 ， 使 用 目录 访问 个 人 的 工作 职位 、 饮 食 习惯 甚至 照片 等 信息 。 

这 些 查询 可 以 由 用 户 发 出 ， 如 上 文中 修 车 厂 ee Dinas ” “黄页 ”查询 ; 或 是 从 进程 发 出 ， 例 如 在 用 
于 识别 满足 某 个 功能 的 服务 时 。 

个 人 与 组 织 可 以 使 用 目录 服务 ， 在 网 络 中 使 大 量 有 关 自 己 的 信息 以 及 提供 的 资源 被 他 人 访问 。 用 
户 可 在 仅 有 部 分 名 字 、 结 构 或 内 容 的 信息 的 情况 下 ， 搜 索 目 录 寻 找 特 定 信 息 。 

ITU 45 ISO 标准 组 织 已 经 将 X. 500 目录 服务 (directory service) [ITU/ISO 1997] 定义 为 一 个 满足 
上 述 需 求 的 网 络 服务 。 该 标准 称 X. 500 为 一 个 访问 有 关 “ 现 实 世 界 实体 ”信息 的 服务 ， 它 也 可 用 于 访 
问 有 关 软 硬件 服务 与 设备 的 信息 。X. 500 被 定义 为 开放 系统 互 连 [0SI] 标准 中 的 一 个 应 用 级 的 服务 ， 
但 它 的 设计 在 很 大 程度 上 并 不 依赖 于 其 他 0SI 标准 ， 因 此 可 以 被 看 做 是 一 个 通用 的 目录 服务 。 我 们 将 
在 这 里 概述 X. 500 目录 服务 的 设计 与 实现 。 对 X. 500 的 详细 信息 以 及 实现 方法 感 兴趣 的 读者 可 以 参阅 
Rose [Rose 1992] 有 关 该 主题 的 书 。X. 500 也 是 LDAP 的 基础 〈 将 在 下 面 讨论 ) ， 它 被 用 于 DCE 的 目 
录 服 务 [OSF 1997] 。 
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在 X.500 服务 器 中 的 数据 被 组 织 成 一 个 由 名 字 结 点 构成 的 树 状 结构 ， 如 在 本 章 中 提 到 的 其 他 名 字 
服务 器 一 样 。 但 在 X. 500 中 ， 树 的 每 个 结 点 存储 了 大 量 的 属性 ,访问 不 仅 可 以 根据 名 称 进 行 ， 也 可 以 
根据 属性 的 组 合 搜索 条 目 。 

X. 500 名 字 树 也 称 为 目录 信息 树 (Directory Information Tree，DIT) ， 而 整个 目录 结构 以 及 与 结 点 有 
关 的 数据 称 为 目录 信息 库 (Directory Information Base，DIB) 。 一 般 倾向 于 将 全 世界 范围 内 的 机 构 提 供 
的 信息 存储 在 一 个 集成 的 DB H, mi DIB 的 一 部 
分 存储 在 单独 的 X. 500 服务 器 中 。 一 个 中 等 规模 | Dya 
或 大 规模 的 组 织 至 少 会 提供 一 个 服务 器 。 客 户 通 
过 建立 一 个 到 服务 器 的 连接 以 及 发 出 访问 请 求 来 DUA 
访问 目录 。 如 果 请 求 的 数据 并 不 在 连接 的 服务 器 LU | 
的 DIB 中 ， 该 服务 器 会 调用 其 他 服务 器 以 解析 查 
询 ， 或 者 将 客户 重 定向 到 另 一 个 服务 器 。 DUA 

在 X. 500 标准 的 术语 中 ， 服 务 器 称 为 目录 服 
务 代 理 (Directory Service Agent, DSA), BFR 
为 目录 用 户 代 理 (Directory User Agent, DUA), 

图 13-10 给 出 了 软件 体系 结构 以 及 可 能 的 导航 模 图 13-10 X. 500 服务 的 体系 结构 
型 中 的 一 个 。 其 中 ， 每 个 DUA 客户 进程 与 单个 
DSA 进程 交互 ， 而 DSA 进程 在 需要 的 时 候 访 问 其 他 DSA 以 满足 请 求 。 

DIB 的 每 个 条 目 由 一 个 名 字 和 一 组 属性 集 组 成 。 与 其 他 名 字 服 务 嚣 相似， 一 个 条 目 完整 的 名 字 对 
应 于 DIT 的 一 个 从 树 根 到 条 目的 路 径 。 除 完整 名 或 绝对 名 外 ，DUA 可 以 建立 一 个 上 下 文 ， 其 中 包括 一 
个 基本 结 点 ， 然 后 DUA 即 可 使 用 较 短 的 相对 名 ， 该 名 字 给 出 了 从 基本 结 点 到 已 命名 条 目的 路 径 。 

图 13-11 显示 了 包括 英国 Gormenghast 大 学 的 部 分 目录 信息 树 ， 图 13-12 是 一 个 相关 的 DIB 条 目 。 
DIB 与 DIT 中 的 条 目的 数据 结构 非常 灵活 。 一 个 DIB 条 目 包 括 一 组 属性 ， 而 每 个 属性 由 一 个 类 型 和 一 
个 或 多 个 值 组 成 。 属 性 的 类 型 由 类 型 名 表示 (如 CountryName、organizationName、commonName、tele- 
phoneNumber、mailbox、objectClass ) 。 在 需要 的 时 候 可 以 定义 新 的 属性 类 型 。 对 于 每 一 个 类 型 名 都 有 一 
个 相应 的 类 型 定义 ， 该 定义 包括 一 个 类 型 描述 以 及 一 个 使 用 ASN. 1 记号 (一 种 语法 定义 的 标准 记号 ) 
表示 的 语法 定义 ， 语 法 定义 确定 了 该 类 型 的 值 域 。 


X.500 Service (root) 























..France (country) Great Britain (country) Greece (country) ... 


..BT Plc (organization) University of Gormenghast (organization) 










..Computing Service CorganizationalUnit) 
Department of Computer Science (organizational Unit) 
Engineering Department (organizationalUnit) ... 





...Departmental Staff (organizational Unit 
ely CapplicationProcess > 
Research Students (organizationalUnit) ... 


..Alice Flintstone (person) ...Pat King (person) James Healey (person) Janet Papworth (person)... 


A] 13-11 X. 500 目录 信息 树 的 一 部 分 


348 - 第 13 章 名 字 服 务 








info 
Alice Flintstone, Departmental Staff, Department of Computer Science, 
University of Gormenghast, GB 


commonName uid 
Alice.L.Flintstone alf 
Alice Flintstone mail 
Alice.Flintstone alf@dcs.gormenghast.ac.uk 


A Flintatone Alice.Flintstone@des.gormenghast.ac.uk 
surname roomNumber 
Flintstone ZA2 
telephoneNumber userClass 
+44 986 33 4604 Research Fellow 





图 13-12 一 个 X.500 DIB #H 


DIB 条 目的 分 类 方式 与 面向 对 象 语言 中 的 对 象 类 结构 相似 。 每 个 条 目 包 括 一 个 objectClass 属性 ， 
它 定义 了 一 个 条 目 指 向 的 对 和 象 的 类 。Organization、organizationPerson 以 及 document 都 是 objectClass 的 值 
的 例子 。 在 需要 的 时 候 可 以 进一步 地 定义 类 。 类 定义 确定 了 给 定 类 的 条 目 中 哪些 属性 是 必需 的 ， 哪 些 
是 可 选 的 。 类 的 定义 可 以 组 织 成 一 个 继承 层次 ， 其 中 ， 除 了 topClass 类 外 ， 所 有 类 都 必须 有 objectClass 
属性 ，objectClass 属性 的 值 必须 是 一 个 或 多 个 类 的 名 字 。 如 果 有 和 多 个 objectClass 值 ， 对 象 继承 每 个 类 的 
必需 的 和 可 选 的 属性 。 

要 确定 DIB 条 目的 名 字 (确定 它 在 DIT 中 位 置 的 名 字 ) ， 可 通过 选择 一 个 或 多 个 属性 作为 辨别 属 
(distinguished attribute) 。 基 于 该 目的 而 被 选中 的 属性 被 称 为 条 目的 辨别 名 (Distinguished Name, 
DN). 

现在 我 们 考虑 访问 目录 的 方法 。 一 般 有 两 种 访问 请 求 : 

tt: 给 定 某 个 条 目的 绝对 的 或 相对 名 字 (E X. 500 中 称 为 域名 ) 以 及 可 读 的 属性 列表 (或 者 需要 
的 属性 的 指示 ) 即 可 。DSA 通过 在 DIT 中 导航 ， 定 位 已 命名 的 条 目 ， 当 DIT 中 没有 相关 条 目 时 ， 会 向 
其 他 DSA 服务 器 发 出 请 求 。DSA 检索 需要 的 属性 ， 并 将 它们 返回 给 客户 。 

BE: 这 是 一 个 基于 属性 的 访问 请 求 。 需 提供 一 个 基本 名 以 及 一 个 过 滤 表 达 式 作为 参数 。 基 本 
名 指定 在 DIT 中 开始 搜索 的 结 点 ， 过 滤 表 达 式 是 一 个 布尔 表达 式 ， 用 于 对 基本 结 点 以 下 的 每 个 结 点 
进行 判定 。 过 滤 表 达 式 指定 了 一 个 搜索 准则 : 对 条 目 属性 值 进行 各 种 逻辑 组 合 测试 。search 命令 会 
返回 一 组 名 字 ( 域 名) ， 这 些 名 字 是 基本 结 点 之 下 的 条 目 名 ,并 且 这 些 条 目的 过 滤 表 达 式 判定 值 
为 真 。 

例如 ， 可 以 构造 一 个 过 滤 表 达 式 ， 用 于 寻找 在 Gormenghast 大 学 的 计算 机 科学 系 占据 了 Z42 房间 的 
员工 的 commonName (参见 图 13-12) 。 然 后 使 用 一 个 读 请 求 获得 这 些 DIB 条 目的 任意 属性 。 

搜索 目录 树 的 大 子 树 〈 可 能 会 驻 留 在 多 台 服 务 器 中 ) 需要 很 大 开销 。 可 以 提供 更 多 的 参数 以 限制 
搜索 的 范围 ， 如 持续 搜索 的 时 间 以 及 返回 条 目的 数目 。 

DBE 的 管理 与 更 新 DSA 接口 包括 增加 、 删 除 以 及 修改 条 目的 操作 ， 查 询 与 更 新 操作 都 提供 了 访 
问 控制 ， 因 此 对 部 分 DIT 的 访问 必须 限定 只 能 由 特定 用 户 或 是 一 类 用 户 来 进行 。 

一 般 来 说 ，DIB 是 分 区 的 ， 每 个 组 织 至 少 应 提供 一 个 服务 器 来 容纳 该 组 织 中 实体 的 细节 。DIB 的 
各 个 部 分 可 以 复制 到 多 个 服务 器 上 。 

作为 一 个 标准 (或 按 CCITT 术语 称 为 “建议 ”) ，X. 500 未 涉及 实现 细节 。 然 而 ， 很 清楚 的 是 ， 任 
何在 广 域 互 连 网 络 中 的 涉及 多 个 服务 器 的 实现 必须 广泛 地 使 用 复制 与 缓存 技术 ， 以 避免 过 多 的 查询 重 
定向 。 

Rose [1992] 描述 了 X. 500 的 一 个 实现 一 一 QUIPU [Kile 1991]， 它 是 伦敦 的 University College F 
发 的 一 个 系统 。 在 该 实现 中 ， 缓 存 与 复制 的 级 别 是 单个 DIB 条 目 ， 或 是 同一 结 点 下 的 条 目 集 。 系 统 假 
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设 在 更 新 后 值 变 得 不 一 致 ， 而 恢复 一 致 性 的 时 间 间 隔 可 能 会 需要 几 分钟 。 这 种 更 新 分 发 的 形式 对 于 目 
录 服 务 应 用 而 言 是 可 接收 的 。 

轻 量 级 目录 访问 协议 X. 500 标准 假设 组 织 能 够 在 公共 系统 的 公共 目录 下 提供 自己 的 信息 ， 这 一 
假设 很 大 程度 上 是 毫 无 根据 的 。 同 样 ， 这 一 标准 的 复杂 性 意味 着 它 对 信息 的 摄取 能 力 相对 较 弱 。 

Michigan 大 学 的 一 个 研究 小 组 提出 了 一 个 更 轻 量 级 的 方法 ， 称 为 轻 量 级 目录 访问 协议 (Lightweight 
Directory Access Protocol ，LDAP) ， 在 该 协议 中 ，DUA 直接 通过 TCP/IP 而 不 是 通过 ISO 协议 栈 的 上 层 来 
访问 X. 500 目录 服务 。 参 见 RFC 2251 [Wahl et al. 1997], LDAP 还 用 其 他 方法 简化 了 X. 500 接口 。 例 
如 ， 它 提供 了 一 个 相对 简单 的 API， 并 使 用 文本 编码 替代 了 ASN. 1 编码 。 l 

尽管 LDAP 规范 基于 X. 500, 但 LDAP 并 不 需要 它 。 任 何 实现 都 可 以 使 用 符合 更 简单 的 LDAP 规范 
的 目录 服务 器 一 一 与 X 500 规范 相反 。 例 如 ， 微 软 的 活动 目录 服务 提供 了 一 个 LDAP 接口 。 

与 X. 500 不 同 的 是 ，LDAP 已 被 广泛 采用 ， 特 别 适 用 于 企业 内 部 网 目录 服务 。 它 通过 认证 提供 了 
安全 的 目录 访问 。 


13.6 ”小结 


本 章 描述 了 分 布 式 系统 中 名 字 服 务 的 设计 与 实现 。 名 字 服 务 存储 了 分 布 式 系统 中 的 对 象 的 属性 ， 
特别 是 它们 的 地 址 ， 并 在 用 一 个 文本 名 查询 时 返回 这 些 属性 。 

名 字 服 务 的 主要 需求 是 处 理 任意 数目 名 字 的 能 力 ， 服 务 应 具有 长 期 性 、 高 可 用 人 性、 故障 隔离 性 与 
不 信任 容忍 性 。 

首要 的 设计 问题 是 名 字 空 间 的 结构 一 一 管理 名 字 的 语法 规则 ， 相 关 问 题 是 解析 模型 ， 即 有 多 个 部 
分 的 名 字 被 解析 为 一 组 属性 的 规则 ， 另 外 ， 绑 定名 的 集合 必须 被 管理 。 最 后 ， 大 多 数 设计 将 名 字 空 间 
分 割 为 域 ， 即 名 字 空 间 的 离散 区 域 ， 每 个 域 具有 一 个 独立 的 相关 权威 机 构 ， 该 机 构 控 制 域内 名 字 的 
WE o 

名 字 服 务 的 实现 可 以 跨越 不 同 的 组 织 机 构 与 用 户 群 。 换 句 话说， 名 字 与 属性 绑 定 构成 的 集合 被 存 
储 在 多 个 名 字 服 务 器 上 ， 每 个 服务 器 至 少 存储 一 个 名 字 域 的 部 分 名 字 集 。 因 此 ， 出 现 了 导航 问题 ， 即 
当 需 要 的 信息 存储 在 多 个 站 点 上 时 名 字 被 解析 的 方式 。 支 持 的 导航 类 型 有 和 迭代、 组 播 、 递 归 服 务 器 控 
制 的 导航 ， 以 及 非 递归 服务 器 控制 的 导航 。 

另 一 个 有 关 名 字 服 务实 现 的 重要 方面 是 复制 与 缓存 的 使 用 。 两 者 均 对 提高 服务 可 用 性 以 及 降低 名 
字 解 析 时 间 有 帮助 。 

本 章 讨 论 了 两 个 主要 的 名 字 服 务 的 设计 与 实现 。 域 名 系统 被 广泛 地 用 于 互联 网 上 的 计算 机 命名 与 
电子 邮件 寻 址 ， 它 通过 复制 与 缓存 获得 理想 的 响应 时 间 。 全 局 名 字 服 务 解决 了 组 织 机 构 变 化 时 重新 配 
置 名 字 空 间 的 问题 。 

本 章 还 讨论 了 目录 服务 ， 当 客户 提供 基于 属性 的 描述 时 ， 该 服务 返回 与 对 象 和 服务 相 匹配 的 数据 。 
X. 500 是 目录 服务 的 一 个 模型 ， 它 既 可 以 用 于 个 人 组 织 的 目录 也 可 以 用 于 全 球 目 录 。 随 着 LDAP 软件 
的 使 用 ，X. 500 也 在 企业 内 部 网 中 被 广泛 使 用 。 


练习 
13.1 描述 在 分 布 式 文件 服务 (如 NFS 中 ， 见 第 8 章 ) 所 使 用 的 名 字 (包括 标识 符 ) 与 属性 。 
(第 566 页 ) 





13.2 讨论 在 名 字 服 务 中 使 用 别名 带 来 的 问题 ， 并 且 指 出 如 何 解 决 这 些 问 题 。 (第 571 页 ) 
13.3 ”解释 为 什么 在 不 同名 字 空 间 可 以 局 部 集成 的 名 字 服 务 中 (如 由 NFS 提供 的 文件 命名 机 制 中 ) 需要 选 
REM. (第 574 页 ) 
13.4 ”描述 组 播 导 航 中 出 现 的 名 字 未 绑 定 问 题 。 通 过 安装 一 个 服务 器 ， 解 决 查询 过 程 中 名 字 的 未 绑 定 问题 ， 
可 以 得 到 什么 结论 ? (第 575 页 ) 
13.5 ”缓存 如 何 提高 名 字 服 务 的 可 用 性 ? (第 576 页 ) 


13.6 讨论 DNS 的 绝对 名 与 相对 名 在 语法 上 缺乏 差别 (如 最 后 的 “.”) 的 情况 。 (第 571 页 ) 
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13.7 考察 DNS 域 与 服务 器 的 本 地 配置 。 你 可 以 寻找 一 个 安装 程序 ， 如 dig 或 nslookup， 它 可 以 执行 单个 名 


字 服 务 器 的 查询 。 (第 578 页 ) 

13.8 为 什么 DNS 根 服务 器 包含 两 层 名 字 (如 yahoo. com 与 purdue. du) 而 不 是 一 层 名 字 (如 edu 与 com?) 
(第 579 页 ) 

13.9 ”默认 情况 下 ，DNS 名 字 服 务 器 包含 哪些 名 字 服 务 器 的 地 址 ， 为 什么 ? (第 579 页 ) 
13. 10 ”为 什么 DNS 客户 选择 递归 导航 而 不 是 选 代 导 航 ? 迭代 导航 选项 会 对 名 字 服 务 器 的 并 发 性 产生 何 种 
影响 ? (第 581 页 ) 

13.11 什么 情况 下 一 个 DNS 服务 器 会 给 一 个 名 字 查 询 返 回 多 个 回答 ， 为 什么 ? (第 581 页 ) 
13.12 GNS 未 保证 命名 数据 亩 中 的 所 有 条 目的 副本 是 最 新 的 ，GNS 的 客户 怎样 才能 意识 到 它们 所 持 有 的 
是 一 个 过 期 的 条 目 ? 在 哪 种 情况 下 ， 这 是 有 害 的 ? (第 585 页 ) 

13.13 ”讨论 用 X.500 目录 服务 替代 DNS 与 互联 网 邮件 传送 程序 的 好 处 与 不 是 。 为 一 个 互联 网 粗略 设计 一 
下 邮件 传送 程序 ， 其 中 每 个 邮件 用 户 与 邮件 主机 都 注册 到 一 个 X. 500 数据 库 。 (第 588 页 ) 


13.14 ”哪些 安全 问题 可 能 会 与 目录 服务 相关 ， 例如， 在 一 个 大 学 里 运行 的 X. 500 目录 服务 ? 
(第 588 页 ) 
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本 章 将 介绍 分 布 式 系统 中 与 时 间 有 关 的 若干 问题 。 时 间 是 一 个 重要 的 问题 。 例 如 ， 我 们 要 求全 世界 的 
计算 机 为 电子 商务 交易 给 出 一 致 的 时 间 蕉 。 时 间 也 是 理解 分 布 式 运行 是 如 何 展 开 的 一 个 重要 的 理论 概念 。 但 
时 间 又 是 分 布 式 系统 中 容易 出 现 问题 的 方面 。 每 个 计算 机 可 以 有 自己 的 物理 时 钟 ， 但 时 钟 通常 会 有 偏离 ， 我 
们 无 法 使 它们 完全 准确 地 同步 。 本 章 将 分 析 使 物理 时 钟 大 致 同步 的 算法 ， 然 后 解释 逻辑 时 钟 ， 其 中 包括 向 量 
时 钟 。 向 量 时 钟 是 给 事件 排序 的 一 种 工具 ， 它 不 需要 精确 地 知道 事件 是 何 时 发 生 的 。 

全 局 物理 时 间 的 缺乏 使 得 很 难 找到 分 布 式 程序 在 执行 时 的 状态 。 我 们 通常 需要 知道 在 进程 B 处 于 
某 种 状态 时 ， 进 程 A 所 处 的 状态 ， 但 我 们 不 能 依靠 物理 时 钟 了 解 在 同一 时 刻 什么 是 真 的 。 本 章 的 后 半 
部 分 将 研究 在 缺乏 全 局 时 间 的 情况 下 决定 分 布 式 计算 中 全 局 状态 的 算法 。 


14.1 简介 

本 章 将 介绍 一 些 基本 概念 和 算法 ， 它 们 与 分 布 式 系统 运行 时 的 监控 有 关 ， 与 发 生 在 分 布 式 系统 运 
行 中 的 事件 时 序 有 关 。 

在 分 布 式 系 统 中 ， 时 间 是 一 个 重要 而 有 趣 的 问题 ， 原 因 如 下 。 第 一 ， 时 间 是 我 们 想 要 精确 度量 的 
量 。 为 了 知道 一 台 特 定 计算 机 上 的 一 个 特定 事件 在 什么 时 间 发 生 ， 将 计算 机 的 时 钟 与 一 个 权威 的 外 部 
时 间 源 同步 是 必要 的 。 例 如 ， 一 个 “电子 商务 ”事务 涉及 的 事件 是 在 贸易 商 的 计算 机 和 银行 的 计算 机 
上 发生 的 。 为 了 便于 审计 ， 这 些 事件 必须 要 精确 地 标记 时 间 稚 。 

第 二 ， 为 了 解决 分 布 方面 的 几 个 问题 ， 已 经 开发 了 若干 依赖 时 钟 同步 的 算法 [Liskov 1993 ] 。 这 些 
算法 包括 维护 分 布 式 数据 一 致 性 的 算法 (16. 6 节 将 讨论 用 时 间 稚 来 串 行 化 事务 ) 、 检 查 发 送 给 服务 器 
的 请 求 的 真实 性 的 算法 (Kerberos 认证 协议 的 一 个 版 本 依赖 松散 同步 的 时 钟 ， 具 体 讨 论 见 第 11 章 ) 以 
及 消除 重复 更 新 的 算法 (BS Ladin 等 [1992] ) 。 

由 于 存在 多 个 参考 系 ， 因 此 时 间 测 量 可 能 是 不 确定 的 。 爱 因 斯 坦 在 他 的 《相对 论 》 中 论证 了 从 观 
察 中 得 出 的 结论 : 不 管 观察 者 的 相对 速度 如 何 ， 光 速 对 所 有 的 观察 者 而 言 是 一 个 常量 。 他 从 这 个 假设 
证 明了 ， 若 两 个 事件 在 一 个 参照 系 下 是 同时 的 ， 但 对 于 其 他 与 这 个 参照 系 相对 运动 的 参照 系 中 的 观察 
者 而 言 ， 它 们 不 一 定 是 同时 的 。 例 如 ， 在 地 球 上 的 观察 者 和 在 宇宙 飞船 中 飞 向 太空 的 观察 者 对 事件 之 
间 的 时 间 间 隔 会 有 不 同 的 意见 ， 当 他 们 的 相对 速度 增加 时 ， 他 们 的 看 法 就 相差 更 大 。 

此 外 ,对 于 两 个 不 同 的 观察 者 ， 两 个 事件 的 相对 顺序 甚至 是 相反 的 。 但 如 果 一 个 事件 能 引起 男 一 
个 事件 的 发 生 ， 那 么 上 述 情况 就 不 可 能 出 现 。 在 这 种 情况 下 ， 对 所 有 的 观察 者 而 言 ， 虽 然 观察 到 的 在 
原因 和 结果 之 问 的 时 间 间 隔 不 同 ， 但 物理 效果 跟随 在 物理 原因 之 后 。 这 样 就 证 明了 ， 物 理事 件 的 时 序 
对 观察 者 而 言 是 相对 的 ， 牛 顿 的 绝对 物理 时 间 概 念 是 不 足 信 的 。 在 度量 时 间 间 隔 时 ， 宇 宙 中 没有 一 个 
专门 的 能 引起 我 们 兴趣 的 物理 时 钟 。 

在 分 布 式 系统 中 ， 物 理 时 间 的 概念 也 是 不 确定 的 。 这 不 是 由 于 相对 性 的 影响 ， 相 对 性 在 常规 计算 
机 中 是 可 忽略 或 不 存在 的 《除非 在 太空 旅行 中 用 计算 机 计数 1) 。 问 题 是 我 们 的 能 力 有 限 ， 不 能 准确 记 
录 不 同 结 点 上 的 事件 的 时 间 ， 以 便 知道 事件 发 生 的 顺序 或 事件 是 否 同时 发 生 。 没 有 绝对 的 全 局 时 间 。 
可 是 ， 我 们 有 时 需要 观察 分 布 式 系统 ， 确 定 事件 的 某 些 状态 是 否 同时 出 现 。 例 如 ， 在 面向 对 象 系统 中 ， 
我 们 要 确定 对 某 一 对 象 的 引用 是 否 已 不 存在 ， 即 是 否 对 象 已 经 变 成 无 用 单元 〈 这 时 我 们 能 释放 它 的 内 
存 ) 。 做 出 以 上 判断 需要 观察 进程 的 状态 〈 找 出 它们 是 否 包含 引用 ) 和 进程 之 间 的 信道 〈 万 一 包含 引 
用 的 消息 正在 传送 过 程 中 ) 。 

在 本 章 的 前 半 部 分 ， 我 们 研究 利用 信息 传递 近似 同步 计算 机 时 钟 的 方法 。 接 着 我 们 会 介绍 逻辑 时 
钟 ， 包 括 向 量 时 钟 ， 它 可 以 用 来 在 不 用 测量 物理 时 间 (发 生 时 的 时 间 ) 的 情况 下 定义 事件 的 顺序 。 

本 章 的 后 半 部 分 将 描述 一 些 算法 ， 这 些 算 法 用 于 捕获 分 布 式 系统 在 运行 时 的 全 局 状态 。 
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14. 2 时钟、 事件 和 进程 状态 

第 2 章 介绍 了 分 布 式 系统 中 进程 之 间 的 交互 模型 。 我 们 将 精 化 该 模型 ， 以 帮助 大 家 理解 如 何 随 系 
统 的 执行 描述 系统 的 演化 ， 如 何 给 系统 执行 过 程 中 用 户 感 兴趣 的 事件 打 时 间 稚 。 我 们 将 从 如 何 给 一 个 
进程 中 发 生 的 事件 排序 和 打 时 间 惟 开始 。 

设 一 个 分 布 式 系统 由 入 个 进程 户 (i=1，2，…，N) 组 成 ， 记 为 P。 每 个 进程 在 一 个 处 理 器 上 执行 ， 
处 理 器 之 间 不 共享 内 存 (第 6 章 将 考虑 共享 内 存 的 进程 )。 在 P 中 ,进程 p, 的 状态 是 ;;， 通 常 在 进程 执行 
时 进行 状态 变换 。 进 程 的 状态 包括 进程 中 所 有 变量 的 值 ， 还 包括 在 它 影响 的 本 地 操作 系统 环境 中 的 对 象 
(如 文件 ) 的 值 。 此 处 假设 除了 通过 网 络 发 送 消息 外 ， 进 程 之 间 不 能 相互 通信 。 例 如 ， 如 果 进 程 操 纵 机 
器 人 手臂 (这些 手臂 连接 到 系统 中 各 自 独 立 的 结 点 ) ， 那 么 不 允许 通过 机 器 人 通过 握手 来 通信 。 

当 每 个 进程 p; 执行 时 ， 它 会 采取 一 系列 动作 ， 每 个 动作 或 是 一 个 消息 Send/Receive 操作 ， 或 是 一 
个 转换 状态 P 的 操作 ， 即 改变 # 中 的 一 个 或 多 个 值 。 实 际 上 ， 我们 可 以 根据 应 用 ， 选 择 使 用 动作 的 高 
层 描 述 。 例 如 ， 如 果 P 中 的 进程 用 于 一 个 电子 商务 应 用 ， 那 么 动作 可 能 是 “客户 发 出 订单 消息 ”或 
“交易 服务 器 将 事务 情况 记录 到 日 志 中 ”。 

我 们 把 事件 定义 成 发 生 了 一 -个 动作 (通信 动作 或 状态 转换 动作 ) ， 该 动作 由 一 个 进程 完成 。 进 程 p 
中 的 事件 序列 可 以 用 全 序 方式 排列 ， 我 们 用 事件 之 闻 的 关系 一 i 表示。 也 就 是 说 ， 当 且 仅 当 在 疡 中 事 - 
件 。 在 e' 前 发 生 时 、 表 示 为 .ce->ie'。 不 论 进程 是 不 是 多 线程 的 ， 这 个 排序 都 是 定义 良好 的 ， 因 为 我 们 假 
设 进程 在 单个 处 理 器 上 执行 。 

现在 ,我 们 把 进程 p; 的 历史 定义 成 在 该 进程 中 发 生 的 一 系列 事件 ， 而 且 按 关系 -排序 : 

history(p,) =h,= <e, e, ef, => 

时 钟 BA AA el te PE HE, (RAN RG SPI BB 
件 赋予 一 个 日 期 和 时 间 。 每 个 计算 机 有 它们 自己 的 物理 时 钟 。 这 些 时 钟 是 电子 设备 ， 计 算 有 固定 频率 
晶体 的 振 葛 次 数 ， 把 计数 值 分 割 一 下 ， 保 存在 计数 器 寄存 器 中 。 可 以 对 时 钟 设备 编程 以 便 按照 一 定 间 
隔 产生 中 断 ， 从 而 实现 时 间 片 之 类 的 功能 。 不 过 ， 我 们 可 以 不 关心 这 个 方面 的 时 钟 操作 。 

操作 系统 读 了 到 结 点 的 硬件 时 钟 值 H(t) ， 按 一 定 比例 放大 ， 再 加 上 一 个 偏 移 量 ， 从 而 产生 软件 时 钟 
C(t) =aH.(t) +B， 用 于 近似 度量 进程 P 的 实际 物理 时 间 i。 换 名 话说 ， 当 在 一 个 绝对 参照 系 中 的 实际 
时 间 为 1 时 ，C;(t) 则 是 软件 时 钟 的 读数 ， 例 如，C;(t) 可 以 是 从 一 个 方便 的 参考 时 间 开 始 的 已 流逝 的 
以 纳 秒 为 单位 的 64 位 值 。 通 常 ， 时 钟 不 完全 准确 ， 所 以 C,(i) 与 i 不同。 然而 如果 C 表现 得 相当 好 
(我 们 将 马上 研究 时 钟 正确 性 的 概念 ) ， 那 么 我 们 能 用 它 的 值 给 p; 的 事件 打 时 间 截 。 注 意 ， 连 续 的 事件 
将 相对 应 于 不 同 的 时 间 惟 ， 条 件 是 时 钟 分 辨 率 《时钟 值 更 新 的 周期 ) 比 连续 事件 之 间 的 时 间 间 隔 小 。 
事件 发 生 的 速率 取决 于 处 理 器 指令 周期 长 度 这 样 的 因素 。 

时 钟 偏 移 和 时 钟 漂移 ”计算 机 时 钟 与 其 他 时 钟 一 样 ， 并 不 是 完全 一 致 的 (如 图 14-1 所 示 ) 。 两 个 
时 钟 的 读数 之 间 的 瞬间 不 同 称 为 时 钟 偏 移 〔clock skew) 。 在 计算 机 中 使 用 的 基于 晶体 的 时 钟 和 其 他 时 
钟 一 样 有 时 钟 漂移 问题 ， 即 它们 以 不 同 的 频率 给 事件 计数 ， 所 以 会 产生 差异 。 时 钟 的 振 划 器 在 物理 上 
会 有 不 同 ， 因 此 振 葛 器 的 频率 会 有 不 同 。 而 且 ， 时 钟 频率 有 时 会 随 温度 不 同 而 有 所 差别 。 有 些 设 计 试 
图 弥补 这 种 不 同 ， 但 这 些 设 计 不 能 完全 消除 这 种 问题 。 两 个 时 钟 之 间 的 振荡 周期 的 不 同 可 能 相对 很 小 ， 
经 过 许多 次 的 累加 仍 会 形成 在 时 钟 计数 器 中 可 观察 到 的 差异 ， 不 论 这 两 个 时 钟 的 初始 值 是 多 么 的 一 致 。 
时 钟 的 漂移 率 (drift rate) 是 指 在 由 参考 时 钟 度量 的 每 个 单位 时 间 内 ， 在 时 钟 和 名 义 上 完美 的 参考 时 钟 
之 间 的 偏 移 量 。 对 普通 的 基于 石英 晶体 的 时 钟 ， 漂 移 率 大 约 在 10”s/s， 即 每 1000 000s 8 11.6 天 有 Is 
的 偏差 。“ 高 精度 ”的 石英 名 的 漂移 率 大 约 为 10 -7 或 10-。 
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网 络 
图 14-1 分 布 式 系统 中 计算 机 时 钟 之 间 的 偏 移 
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通用 协调 时 间 ”计算 机 时 钟 能 与 外 部 的 高 精度 时 间 源 同步 。 最 准确 的 物理 时 钟 使 用 原子 振荡 器 ， 
它 的 漂移 率 大 约 为 10 ”。 这 些 原子 时 钟 的 输出 被 用 作 实 际 时 间 的 标准 ， 称 为 国际 原子 时 间 (Intema- 
tional Atomic Time), M 1967 年 起 ， 标 准 的 秒 被 定义 为 饮 〈( Cs”) 在 两 个 层次 之 间 的 跳跃 周期 的 
9 192 631 770 倍 。 

秒 、 年 和 其 他 我 们 使 用 的 时 间 单 位 来 源 于 天 文 时 间 。 它 们 最 初 按 地 球 的 自转 和 公转 定义 。 然 而 ， 
地 球 自转 周期 在 慢 慢 变 长 ， 这 主要 因为 潮 沙 的 摩擦 力 ; 大 气 的 影响 和 地 球 内 核 的 对 流 也 导致 周期 短期 
的 增加 和 减少 。 所 以 天 文 时 间 和 原子 时 间 并 不 一 致 。 

通用 协调 时 间 (Coordinated Universal Time, UTC (该 缩写 是 根据 法 语 得 来 的 )) 是 国际 计时 标准 。 
它 基于 原子 时 间 ， 但 偶尔 需要 增加 头 秘 或 极 偶尔 的 情况 下 要 删除 头 秒 ， 以 便 同 天 文 时 间 保 持 一 致 。 
UTC 信号 由 覆盖 世界 大 部 分 地 方 的 广播 电台 和 卫星 进行 同步 和 广播 ， 例 如 ， 在 美国 ， 广 播 电 台 WWV 
用 儿 个 短波 频率 广播 时 间 信 号 。 卫 星 设备 包括 全 球 定位 系统 (Global Positioning System, GPS). 

接收 器 可 从 商家 购买 。 与 “极为 准确 的 ”UTC 相 比 ， 从 陆地 广播 站 接收 的 信号 具有 0. 1 ~ 10ms 级 
的 精度 ， 这 取决 于 所 使 用 的 广播 站 。 从 GPS 接收 的 信号 能 精确 到 lms。 与 接收 器 相连 的 计算 机 能 用 这 
些 时 序 信号 同步 它们 的 时 钟 。 计 算 机 也 能 通过 电话 线 从 诸如 美国 国家 标准 和 技术 研究 所 这 样 的 组 织 接 
收 时 间 。 


14.3 ”同步 物理 时 钟 

为 了 知道 在 分 布 式 系 统 P 的 进程 中 事件 发 生 的 具体 时 间 (例如 ,为 了 进行 会 计 工 作 ) ， 有 必要 用 权 
威 的 外 部 时 间 源 同步 进程 的 时 钟 C;。 这 标 为 外 部 同步 (external synchronization) 。 如 果 时 钟 C, 与 其 他 时 
钟 同步 到 一 个 已 知 的 精度 ,那么 我 们 能 通过 本 地 时 钟 度量 在 不 同 计算 机 上 发 生 的 两 个 事件 的 间隔 一 一 
即使 它们 没有 必要 与 外 部 时 间 源 同步 。 这 称 为 内 部 同步 。 我 们 在 实际 时 间 了 的 一 个 区 间 上 定义 两 个 同 
步 模式 : 

外 部 同步 设 一 个 同步 范围 D >0，UTC 时 间 源 为 S，7 中 的 所 有 实际 时 间 为 1, 满足 | S(t) -GE | < 
D, 其 中 ;=1，2，…，N。 该 定义 的 另 一 种 说 法 是 时 钟 C 在 范围 D 中 是 准确 的 。 

内 部 同步 : 设 同步 范围 也 >0,， 7 中 的 所 有 实际 时 间 为 4， 则 有 | C(t) -C(t) | <D, 其 中 i, j=1, 
2，…，, j，N。 该 定义 的 另 一 种 说 法 是 时 钟 C, 在 范围 D 中 是 一 致 的 。 

内 部 同步 的 时 钟 未 必 是 外 部 同步 的 ， 因 为 即使 它们 相互 一 致 ， 它 们 与 时 间 的 外 部 源 也 可 以 有 漂移 。 
然而 ,根据 定义 ， 如 果 系 统 P 在 范围 D 内 是 外 部 同步 的 ， 那 么 同一 系统 在 范围 2D 内 是 内 部 同步 的 。 

时 钟 正确 性 (correctness) 概念 有 不 同 的 提 法 。 通 常 ， 如 果 一 个 硬件 时 钟 五 的 漂移 率 在 一 个 已 知 的 
范围 p >0 内 (该 值 从 制造 商 处 获得 ， 例 如 10™“s/s) ， 那 么 该 时 钟 就 是 正确 的 。 这 表明 度量 实际 时 间 
Ale’ (¢ >t) 的 时 间 间 隔 的 误差 是 有 界 的 : 

(1 -p)(t’-t#) S H(t’) - H(t) s (1 +p) -i) 

该 条 件 禁 止 了 硬件 时 钟 值 〈 在 正常 操作 中 ) ABR. Ait, RTH RA AN RIAA. E 

用 一 个 较 弱 的 单调 性 条 件 就 足够 了 。 单 调 性 是 指 一 个 时 钟 C 前 进 的 条 件 ; 
t'> t=9C(t') > C(t) 

ian, UNIX 的 make 是 一 个 工具 ， 用 于 编译 那些 自 上 一 次 编译 以 来 被 修改 的 源 文件 。make 将 源 文 
件 和 相应 的 目标 文件 的 修改 日 期 进行 比较 ， 以 决定 是 否 进行 编译 。 如 果 一 台 计 算 机 时 钟 运行 得 快 了 ， 
在 编译 源 文件 后 修改 源 文 件 前 把 该 时 钟 调整 正确 ， 那 么 会 出 现 源 文件 在 编译 前 被 修改 的 结果 ， 此 时 
make 就 会 错误 地 不 编译 该 源 文 件 。 

尽管 发 现时 钟 运行 快 了 ， 我 们 还 是 能 获得 单调 性 的 。 我 们 仅 需 要 改变 比率 ， 使 得 对 时 间 的 更 新 与 
应 用 一 样 。 可 不 改变 硬件 时 钟 滴答 的 比率 而 用 软件 达到 这 一 目标 ， 回 忆 等 式 CG) =o, (t) +B， 这 里 
我 们 可 自由 选择 a 和 有 的 值 。 

有 时 使 用 的 一 个 混合 正确 性 的 条 件 是 要 求 时 钟 遵循 单调 性 条 件 ， 同 时 它 的 漂移 率 在 两 个 同步 点 之 
间 是 有 界 的 ， 但 是 在 同步 点 允许 时 钟 值 可 跳跃 前 进 。 

不 满足 正确 性 条 件 的 时 钟 就 被 定义 成 是 有 故障 (faulty) 的 。 当 时 钟 完 全 停止 滴答 ， 称 为 时 钟 的 裔 
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溃 故 障 (crash failure) 。 其 他 时 钟 故障 是 随机 故障 (arbitrary failure) 。 有 千年 虫 的 时 钟 故障 就 是 此 类 故 
障 的 例子 ， 它 破坏 了 单调 性 条 件 ， 因 为 将 1999 年 12 月 31 日 后 的 日 期 登记 成 1900 年 1 月 1 日 ,而 不 是 
2000 年 1 月 1 日 。 另 一 个 例子 是 时 钟 的 电池 不 足 ， 它 的 漂移 率 会 突然 变 得 很 大 。 

注意 ， 根 据 定义 ， 时 钟 不 必 非 常 正确 。 因 为 目标 可 以 是 内 部 同步 而 不 是 外 部 同步 ， 正 确 的 标准 仅 
仅 与 时 钟 “ 机 制 ” 的 正常 运行 有 关 ， 而 不 是 它 的 绝对 设置 。 

现在 描述 外 部 同步 和 内 部 同步 的 算法 。 


14. 3. 1 同步 系统 中 的 同步 


考虑 最 简单 的 情况 : 在 一 个 同步 分 布 式 系 统 中 ， 两 个 进程 之 间 的 内 部 同步 。 在 同步 系统 中 ， 已 知 
时 钟 漂移 率 的 范围 、 最 大 的 消息 传输 延迟 和 进程 每 一 步 的 执行 时 间 ( 见 2.4.1 节 )。 

一 个 进程 在 消息 m 中 将 本 地 时 钟 的 时 间 # 发 送 给 另 一 个 进程 。 原 则 上 ， 接 收 进程 可 以 将 它 的 时 钟 
设 成 t+7,。。， 其 中 7, 是 在 两 个 进程 间 传 输 m 所 花 的 时 间 。 两 个 时 钟 应 该 能 一 致 ( 因 为 是 内 部 同步 ， 
它 不 管 发 送 进程 的 时 钟 是 否 精 确 ) 。 

但 了. 是 常常 变化 和 未 知 的。 通常 ， 其 他 进程 与 要 同步 的 进程 在 各 自 的 结 点 上 竞争 资源 ， 其 他 消 
息 与 m 竞争 网 络 。 如 果 没 有 其 他 进程 要 执行 ,也 没有 其 他 网 络 通信 ， 那 么 总 有 一 个 最 小 的 传输 时 间 
min，min 可 以 被 度量 或 适当 地 估计 出 来 。 

根据 定义 ， 在 一 个 同步 系统 中 ， 用 于 传输 消息 的 时 间 有 一 个 上 界 max。 设 消息 传输 时 间 的 不 确定 
EA u, 那么 w= (max ~ min) 。 如 果 接 收 方 将 它 的 时 钟 设 成 上 + min， 那么 时 钟 偏 移 至 多 为 w， 因 为 事实 
上 消息 可 能 花 了 max 时 间 才 到 达 。 类 似 地 ， 如 果 将 时 钟 设 成 上 + max， 那 么 时 钟 偏 移 可 能 为 w。 然 而 ， 
如 果 将 时 钟 设 成 :+ (max + min) /2， 那 么 时 钟 偏 移 至 多 为 w2。 通 常 ， 对 一 个 同步 系统 ， 同 步 Y 个 时 
钟 时 ， 可 获得 的 时 钟 偏 移 最 优 范围 是 xz (1 -1/N) [Lundelius and Lynch1984] 。 

大 多 数 实 际 的 分 布 式 系统 是 异步 的 。 导 致 消息 延迟 的 因素 有 很 多 ， 消 息 传输 延迟 没有 上 界 max, 
在 互联 网 上 尤其 如 此 。 对 于 一 个 异步 系统 ， 我 们 只 能 说 Two. = min +x, Hip x20, « 的 值 在 某 些 情况 
下 是 不 知道 的 ， 虽 然 对 特定 的 环境 ， 值 的 分 布 是 可 以 度量 的 。 


14.3.2 同步 时 钟 的 Cristian 方法 


Cristian [1989] 建议 使 用 一 个 时 间 服 务 器 ， 它 连接 到 一 个 接收 UTC 信和 号 的 设备 上 ， 用 于 实现 外 部 
同步 。 在 接收 到 请 求 后 ， 服 务 器 进程 8 根据 它 的 时 钟 提供 时 间 ， 如 图 14-2 所 示 。Cristian 观察 到 ， 虽 然 
在 异步 系统 中 消息 传输 延迟 没有 上 界 ， 但 在 一 对 进程 之 间 进 行 消 息 交 换 的 往返 时 间 通 常 相当 短 ， 只 有 
几 分 之 一 秒 。 他 把 算法 描述 成 带 条 件 〈probabilistie) 的 : 只 有 在 客户 和 服务 器 之 间 的 往返 时 间 与 所 要 
求 的 精确 性 相 比 足够 短 ， 该 方法 才能 达到 同步 。 














P 时 间 服务 器 5 
图 14-2 用 时 间 服 务 器 进行 时 钟 同步 


进程 p 在 消息 m, 中 请 求 时 间 ， 从 消息 m, 中 接收 时 间 值 :; (i 在 从 5 的 计算 机 传送 之 前 的 最 后 可 能 
时 刻 插入 到 m,). BEBE p 记录 了 发 送 请 求 m, 和 接收 应 答 m, 的 整个 往返 时 间 Ts。 如 果 时 钟 漂移 率 小 ， 
那么 该 值 可 以 比较 精确 地 度量 这 段 时 间 。 例 如 ， 往 返 时 间 在 LAN 上 应 该 达到 1 ~ 10ms 数量 级 ， 漂 移 率 
为 10 “s/s 的 时 钟 在 这 段 时 间 里 变化 至 多 10 ”ms。 

假设 5 在 m, 中 放置 1， 往返 时 间 在 上 时间 点 之 前 和 之 后 平分 ， 那 么 估计 进程 p 应 该 设置 它 的 时 钟 的 
时 间 为 1 + Te/2。 正 常情 况 下 ， 这 是 一 个 相当 精确 的 假设 ， 除 非 两 个 消息 在 不 同 的 网 络 上 传递 。 如 
果 最 小 传输 时 间 min 的 值 是 已 知 的 或 者 能 保守 地 估计 ， 那 么 我 们 能 用 如 下 方法 判断 结果 的 精确 性 。 
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5 能 在 m, 中 放置 时 间 的 最 早点 是 在 p 发 出 m, 之 后 的 min。 它 能 做 此 工作 的 最 近 时 间 点 是 在 m, 到 
Kp 之 前 的 min。 因 此 ， 应 管 消息 到 达 时 5 的 时 钟 的 时 间 位 于 范围 [1+ min, t+ Tw - min] 内 。 这 个 
范围 的 宽度 是 Ts -2min， 所 以 精确 度 是 + (Troung/2 -min)。 

通过 给 5 发 送 几 个 请 求 〈 应 该 每 隔 一 段 时 间 发 送 一 个 请 求 以 便 造成 拥堵 ) 并 用 7.,w 的 最 小 值 给 出 
最 精确 的 估计 ， 这 样 可 在 一 定 程度 上 应 对 可 变性 。 精 确 性 要 求 越 高 ， 达 到 它 的 可 能 性 越 小 。 这 是 因为 
最 精确 的 结果 源 于 两 个 消息 在 接近 min 的 时 间 中 传输 一 一 在 繁忙 的 网 络 中 ， 这 是 不 太 可 能 的 。 

关于 Cristian 算法 的 讨论 ”如 上 所 述 ，Cristian 方法 存在 的 问题 与 所 有 由 单个 服务 器 实现 的 服务 相 
关 ， 单 个 时 间 服 务 器 可 能 出 现 故障 ， 以 至 于 暂时 不 能 同步 。 因 此 ，Cristian 建议 应 该 由 一 组 同步 时 间 服 
务 器 提供 时 间 ， 每 一 个 服务 器 都 有 一 个 UTC 时 间 信 号 接收 器 。 例 如 ， 一 个 客户 可 以 将 它 的 请 求 组 播 到 
所 有 服务 器 并 仅 使 用 获得 的 第 一 个 应 答 。 

用 假 的 时 间 值 进行 应 答 的 故障 时 间 服 务 器 或 故意 用 不 正确 的 时 间 做 应 答 的 假冒 的 时 间 服 务 器 都 会 
给 计算 机 系统 带 来 灾难 。 这 些 问 题 超出 了 Cristian [1989] 所 描述 的 工作 的 范围 ，Cristian 假设 外 部 时 
间 信 号 源 是 自 检测 的 。Cristian 和 Fetzer [1994] 描述 了 内 部 时 钟 同步 的 条 件 协 议 族 ， 其 中 每 一 个 协议 
都 能 容忍 某 类 故障 。Srikanth 和 Toueg [1987] 首先 描述 了 一 个 算法 ， 它 在 容 丽 一 些 故 障 的 同时 ， 在 同 
步 时 钟 的 精确 性 上 是 最 优 的 。Dolev [1986] 认为 ,如 果 f 是 所 及 个 时 钟 中 出 错时 钟 的 个 数 ， 那 么 
要 让 其 他 正确 的 时 钟 仍 能 达成 一 致 ， 必 须 满足 N>3f。 处 理 出 错时 钟 的 问题 可 由 下 面 描述 的 Berkeley 算 
法 解决 。 有 恶意 干 扰 时 间 同 步 的 问题 使 用 认证 技术 来 应 对 。 


14.3.3 Berkeley 算法 


Gusella 和 Zatti [1989] 描述 了 一 个 内 部 同步 的 算法 ， 用 于 运行 Berkeley UNIX 的 计算 机 群 。 在 该 
算法 中 ， 选 择 一 台 协调 者 计算 机 作为 主机 〈master) 。 与 Cristian 协议 不 同 ， 这 个 计算 机 定期 轮 询 其 他 
要 同步 时 钟 的 计算 机 ( 称 为 从 属 机 ) 。 从 属 机 (slave) 将 它们 的 时 钟 值 返 回 给 主机 。 主 机 通过 观察 往 
返 时 间 (M Cristian 的 技术 ) 来 估计 它们 的 本 地 时 钟 时 间 ， 并 计算 所 获得 值 (包括 它 自 己 时 钟 的 读 
数 ) 的 平均 值 。 概 率 的 均衡 是 指 这 个 平均 值 能 抵偿 单个 时 钟 跑 快 或 跑 慢 的 趋势 。 协 议 的 准确 性 依赖 于 
主机 和 从 属 机 之 间 名 义 上 最 大 的 往返 时 间 。 主 机 排除 了 某 些 比 这 个 最 大 值 更 大 的 时 间 读 数 。 

主机 不 是 发 送 更 新 的 当前 时 间 给 其 他 计算 机 《这 种 方式 会 因为 消息 传递 时 间 而 引入 更 多 的 不 确定 
性 ) ， 而 是 发 送 每 个 从 属 机 的 时 钟 所 需 的 调整 量 。 这 个 量 可 以 是 一 个 正 数 ， 也 可 以 是 一 个 负数 。 

算法 避免 了 读 取 错 误 时 钟 的 问题 。 如 果 用 一 个 一 般 的 平均 值 的 话 ， 这 种 有 错 的 时 钟 会 产生 极 大 的 
负面 影响 。 主 机 采用 客 错 平均 值 (fault-tolerant average) 。 也 就 是 说 ， 在 时 钟 中 选择 差 值 不 多 于 一 个 指 
定量 的 子 集 ， 平 均值 仅 根据 这 些 时 钟 的 读数 计算 。 

Gusella 和 Zatti 描述 了 涉及 15 台 计 算 机 的 实验 ， 使 用 他 们 的 协议 ， 这 些 计算 机 的 时 钟 可 同步 在 
20 ~25ms 之 内 。 本 地 的 时 钟 漂移 率 小 于 2 x10“”， 最 大 的 往返 时 间 为 10ms。 

如 果 主 机 出 现 故 障 ， 要 能 选举 另 一 个 主机 接管 ， 并 像 它 的 前 任 一 样 工作 。15. 3 节 将 讨论 一 些 通用 
的 选举 算法 。 注 意 ， 它 们 并 不 保证 在 有 限时 间 内 选 出 一 个 新 的 主机 ， 所 以 如 果 使 用 它们 ， 在 两 个 时 钟 
之 间 的 不 同 应 不 受 约束 。 


14.3.4 网络 时 间 协 议 


Cristian 的 方法 和 Berkeley 算法 主要 应 用 于 企业 内 部 网 。 网 络 时 间 协 议 (Network Time Protocol, 
NTP) [Mills 1995] 定义 了 时 间 服 务 的 体系 结构 和 在 互联 网 上 发 布 时 间 信 息 的 协议 。 

NTP 主要 的 设计 目标 和 特色 如 下 : 

e 提供 一 个 服务 ， 使 得 跨 互 联网 的 用 户 能 精确 地 与 UTC 同步 : 尽管 在 互联 网 通信 中 会 遇 到 大 的 
可 变 的 消息 延迟 ， 但 NTP 采用 了 过 滤 时 序数 据 的 统计 技术 ， 以 辨别 不 同 服务 器 的 时 序数 据 。 

o 提供 一 个 能 在 漫长 的 连接 丢失 中 生存 的 可 靠 服务 : 提供 宛 余 的 服务 器 并 在 服务 器 之 间 提 供 元 余 
的 路 径 。 如 果 其 中 一 个 服务 器 不 可 达 ， 能 重 配 置 服务 器 以 便 继续 提供 服务 。 

使 得 客户 能 经 常 有 效 地 重新 同步 以 抵消 在 大 多 数 计 算 机 中 存在 的 洒 移 率 ; 服务 能 被 扩展 到 处 理 大 
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量 客户 和 服务 器 的 情况 。 
© 提供 保护 ， 防 止 对 时 间 服 务 的 干扰 ,无 论 是 恶意 的 还 是 偶然 的 : 时 间 服 务 使 用 认证 技术 来 检查 
来 自 声称 是 可 信 源 的 时 序数 据 。 它 也 验证 发 送 给 它 的 消息 的 返回 地 址 。 

peed cL nt cad a ni fsb ned 
的 接收 UTC 的 时 间 源 ; 二 级 服务 器 (secondary serv- 
ers) 最 终 与 主 服务 器 同步 。 服 务 器 在 一 个 称 为 同步 i 
子 网 的 逻辑 层次 中 连接 ( 见 图 14-3) ， 其 中 的 分 层 r. 4 
叫 层 次 。 主 服务 器 占据 层次 1: 它们 是 根 。 层 次 2 
的 服务 器 是 与 主 服务 器 直接 同步 的 二 级 服务 器 ; 层 
次 3 的 服务 器 与 层次 2 的 服务 器 同步 ， 依 此 类 推 。 ,ANN hy 
最 低层 (叶子) 服务 器 在 用 户 的 工作 站 上 执行 。 

层次 数 大 的 服务 器 上 的 时 钟 比 层次 数 小 的 服务 
器 上 的 时 钟 更 容易 不 准确 ， 因 为 在 同步 的 每 一 层 都 注 : 箭头 表示 同步 控制 ， 数 字 表 示 层 次 
会 引入 误差 。NTP 在 评估 由 某 个 服务 器 拥有 的 计时 
数据 的 质量 时 ， 也 考虑 了 整个 消息 到 根 的 往返 时 间 — EE ne, 
延迟 。 

在 服务 器 不 可 达 或 出 现 故障 时 ， 同 步子 网 可 以 重 配置 。 例 如 ， 如 果 主 服务 器 的 UTC 源 出 现 故障 ， 
那么 它 能 变 成 层次 2 的 二 级 服务 器 。 如 果 二 级 服务 器 的 常规 同步 源 出 现 故障 或 变 得 不 可 达 ， 那 么 它 可 
以 与 另 一 个 服务 器 同步 。 

NTP 服务 器 用 以 下 三 种 模式 中 的 一 种 相互 同步 : 组 播 、 过 程 调用 和 对 称 模式 。 组 播 模式 用 于 高 速 
LAN。 一 个 或 多 个 服务 器 定期 将 时 间 组 播 到 由 LAN 连接 的 其 他 计算 机 上 的 服务 器 中 ， 并 设置 它们 的 时 
钟 〈 假 设 延 迟 很 小 ) 。 这 个 模式 能 达到 的 准确 性 较 低 ， 但 对 许多 目的 而 言 ， 这 已 经 足够 了 。 

过 程 调用 模式 (procedure-call mode) 类 似 上 述 的 Cristian 算法 的 操作 (在 14.3.2 节 中 有 说 明 ) 。 在 
这 个 模式 下 ， 一 个 服务 器 从 其 他 计算 机 接收 请 求 ， 并 用 时 间 惟 〈 当 前 的 时 钟 读数 ) 应 答 。 这 个 模式 适合 
准确 性 要 求 比 组 播 更 高 的 场合 ， 或 不 能 用 硬件 支持 组 播 的 场合 。 例 如 ， 在 同一 LAN 或 邻近 LAN 中 的 文 
件 服务 器 ， 它 们 需要 为 文件 访问 保持 准确 的 时 序 信息 ， 这 时 就 可 以 用 过 程 调用 模式 与 本 地 服务 器 打交道 。 

最 后 ， 对 称 模式 (symmetric mode) 可 用 于 在 LAN 中 提供 时 间 信 息 的 服务 器 和 同步 子 网 的 较 高 层 
(层次 数 较 小 ) ， 即 要 获得 最 高 准确 性 的 地 方 。 按 对 称 模式 操作 的 一 对 服务 器 交换 有 时 序 信 息 的 消息 。 
时 序数 据 作 为 服务 器 之 间 的 关联 的 一 部 分 被 保留 ， 维 护 时 序数 据 是 为 了 提高 时 间 同 步 的 精确 性 。 

在 所 有 的 模式 中 ,使 用 标准 UDP 互联 网 传输 协议 进行 消 传递 ， 是 不 可 靠 的。 在 过 程 调用 模式 和 对 
称 模式 中 ， 进 程 交换 消息 对 。 每 个 消息 有 最 近 消 息 事 件 的 时 间 惟 : 发 送 和 接收 前 一 个 NTP 消息 的 本 地 
时 间 ， 发 送 当前 消息 的 本 地 时 间 。NTP 消息 的 接收 者 记录 它 接收 消息 的 本 地 时 间 。 图 14-4 给 出 了 在 服 
务 器 A 和 B 之 间 发 送 的 消息 m 和 m’ 的 4 个 时 间 7T_;、7T..。、 了 ,和 7T,。 注 意 ， 在 对 称 模式 中 ， 与 上 面 描 
述 的 Cristian 算法 不 一 样 ， 在 一 个 消息 的 到 达 和 另 一 个 消息 的 发 送 之 间 会 存在 不 可 忽视 的 延迟 。 而 且 ， 
消息 也 可 能 丢失 ， 但 是 由 每 个 消息 携带 的 3 个 时 间 戳 仍 是 有 效 的 。 

服务 器 B te 

> 时 间 














时 间 


Esm non n 


图 14-4 一 对 NTP 服务 器 之 间 的 消息 交换 
对 于 两 个 服务 器 之 间 发 送 的 每 对 消息 ， 由 NTP 计算 偏 移 o 和 延迟 dio WE o 是 对 两 个 时 钟 之 间 实 
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际 偏 移 的 一 个 估计 ， 延 迟 d 是 两 个 消息 整个 的 传输 时 间 。 如 果 B 上 时 钟 相对 于 A 的 真正 偏 移 是 。， 而 
m 和 和 m' 实 际 的 传输 时 间 分 别 是 1 和 +， 那么 我 们 有 : 
T =T,, +t+oMT, =T, +8 -0 


d =t+t =T7,, -T +T; -Ta 
以 及 
o=o+( 纪 一 四 [2, 其 中 oj = (T3 -Ta + T -T)/2 

利用 上 Alt’ S0 的 事实 ， 有 o -d/2<o0<o,+d,/2, XEF 0; 是 偏 移 的 估计 ，d; 是 该 估计 的 精确 性 的 
一 个 度量 。 

NTP 服务 器 对 于 连续 的 <o;，d, > 对 应 用 数据 过 滤 算 法 ， 用 于 估计 偏 移 o 并 计算 这 个 估计 的 质量 〈 采 
FARA IE BP ASH (filter dispersion) 的 统计 量 形式 ) 。 若 过 滤 离 中 趋势 较 高 ， 则 表示 数据 相对 而 言 不 
可 靠 。 保 留 8 个 最 近 的 <o, di > 对 。 与 Cristian 算法 一 样 ， 选 择 对 应 于 最 小 d; 值 的 o 的 值 用 于 估计 o。 

与 某 个 源 通信 得 到 的 偏 移 值 未 必用 于 控制 本 地 时 钟 。 通 常 ， 一 个 NIP 服务 器 参与 几 个 对 等 方 的 消息 
交换 。 除 了 应 用 到 与 每 个 对 等 方 交换 的 数据 过 滤 外 ，NTP 还 使 用 对 等 方 选择 算法 。 它 检查 从 与 几 个 对 等 方 
交换 中 获得 的 值 ， 查 找 相 对 不 可 靠 的 值 。 这 个 算法 的 输出 使 服务 器 可 以 改变 它 主要 用 于 同步 的 对 等 方 。 

层次 较 低 的 对 等 方 比 层次 较 大 的 对 等 方 更 受 欢迎 ， 因 为 它们 “更 接近 ” 主 时 间 源 。 具 有 最 低 同 步 
高 中 趋势 《synchronization dispersion) 的 对 等 方 也 比较 受 欢 迎 。 这 是 服务 器 和 同步 子 网 的 根 之 间 度 量 的 
过 滤 离 中 趋势 之 和 。( 对 等 方 在 消息 中 交换 同步 离 中 趋势 ， 这 样 就 可 以 计算 该 总 计 值 。) 

NTP 采用 一 个 阶段 锁 循环 模型 [Mills 1995 ] ， 它 按照 对 漂移 率 的 结果 修改 本 地 时 钟 的 更 新 频率 。 
举 一 个 简单 的 例子 ， 如 果 发 现 一 个 时 钟 总 是 以 固定 比例 走 快 ， 如 每 小 时 快 4s， 那 么 为 了 弥补 这 个 问题 ， 
可 稍微 降低 它 的 频率 (用 软件 或 硬件 )。 这 样 ， 时 钟 在 两 次 同步 间隔 中 的 漂移 会 减少 。 

Mills 提 到 ， 同 步 精 确 性 在 互联 网 路 径 上 是 10ms 数量 级 ,在 LAN 上 是 lms 数量 级 。 


14.4 逻辑 时 间 和 逻辑 时 钟 

从 单个 进程 的 角度 看 ,事件 可 唯一 地 按照 本 地 时 钟 显示 欧 时 间 进 行 排序 。 但 Lamport [1978] 指 
出 ， 因 为 我 们 不 能 在 一 个 分 布 式 系统 上 完美 地 同步 时 钟 ， 因 此 通常 我 们 不 能 使 用 物理 时 间 指 出 在 分 布 
式 系 统 中 发 生 的 任何 一 对 事件 的 顺序 。 

通常 ; 我 们 使 用 类 似 物理 因果 关系 的 方案 ,但 将 它 应 用 到 分 布 式 系统 是 为 了 给 发 生 在 不 同 进程 里 
的 事件 排序 。 这 种 排序 是 基于 下 面 既 简单 又 直观 的 两 点 : 

。 如 果 两 个 事件 发 生 在 同一 个 进程 疡 (=1，2，…，N) 中 ， 那 么 它们 发 生 的 顺序 是 p; 观察 到 的 

顺序 ， 即 我 们 上 面 定义 的 顺序 一 i。 

。 当 消 息 在 不 同 进程 之 间 发 送 时 ， 发 送 消息 的 事件 在 接收 消息 的 事件 之 前 发 生 。 

Lamport 将 推广 这 两 种 关系 得 到 的 偏 序 称 为 发 生 在 先 关 系 。 有 时 它 也 称 为 因果 序 或 潜在 的 因果 序 。 

我 们 按 如 下 所 示 定 义 发 生 在 先 关 系 (用 一 表示 ): 

HB1: WR IË p: e~e, IA e 一 e 。 

HB2， 对 任 一 消息 m, send(m)—receive( m), FEHR send(m) 是 发 送 消息 的 事件 ，receive(m) BE 
收 消息 的 事件 。 

HB3: WẸ e, ec’ Ml eR, HA ee’ Ail e'e, 那么 ee", 

由 此 ， 如 果 e 和 "是 事件 ， 且 e 一 e'， 那 么 我 们 能 找到 在 一 个 或 多 个 进程 中 发 生 的 事件 e ，e ，…，e， 
有 e=el, =e, 并且 对 于 i=1, 2, --, N-1, Ce, 和 和 ei, 之 间 既 可 以 应 用 HB1 也 可 以 应 用 HB2。 也 
就 是 说 ,或 者 它们 在 同一 个 进程 中 连续 发 生 ， 或 存在 一 个 消息 m 使 得 e = send(m)，ei,! = receive( m)。 
事件 e ，e ，…，e, 的 顺序 不 必 是 唯一 的 。 

图 14-5 中 的 3 个 进程 p:、p, 和 ps 可 用 于 说 明 关系 一 。 可 以 看 到 ab, AATRE p 中 事件 按 这 
个 顺序 发 生 〈o 一 动 ) ， 类 似 地 有 cod, HEA 8-*c， 因 为 这 些 事件 是 发 送 和 接收 消息 m ， 类 似 地 有 
d 一 f。 结 合 这 些 关 系 ， 我 们 可 以 得 到 afo 
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图 14-5 发 生 在 三 个 进程 中 的 事件 


从 图 14-5 还 可 以 看 出 ， 并 不 是 所 有 的 事件 与 关系 一 相关 。 例 如 ，a >e 和 e 了 > a， 因 为 它们 发 
生 在 不 同 的 进程 中 ， 且 它们 之 间 没 有 消息 链 。 我 们 说 ， 像 a 和。 这 样 不 能 由 一 排序 的 事件 是 并 发 的 ， 
写成 a eo 

关系 一 捕获 了 两 个 事件 之 间 的 数据 流 。 但 是 要 注意 ， 原 则 上 数据 可 以 按 非 消息 传递 的 方式 流动 。 
例如 ， 如 果 Smith 输 人 一 条 命令 让 进程 发 送 一 条 消息 ， 然 后 给 Jones 打 电 话 ，Jones 让 自己 的 进程 发 另 一 
条 消息 ， 那 么 第 一 条 消息 的 发 送 显然 在 第 二 条 消息 之 前 发 生 。 但 是 ， 因 为 在 进程 之 间 没 有 发 送 网 络 消 
息 ， 我 们 不 能 在 系统 中 为 这 种 类 型 的 关系 建 模 。 

要 注意 的 另 一 点 是 ， 如 果 发 生 在 先 关系 在 两 个 事件 之 间 成 立 ， 那 么 第 一 个 事件 可 能 引起 了 第 二 个 
事件 ， 也 可 能 并 未 引起 第 二 个 事件 。 例 如 ， 如 果 服 务 器 接收 一 个 请 求 消息 ， 后 来 发 送 了 一 个 应 答 ， 那 
么 很 显然 ， 应 管 的 传送 是 由 请 求 的 传送 引起 的 。 但 是 ， 关 系 一 只 捕获 可 能 的 因果 关系 ， 两 个 事件 即使 
没有 真正 的 联系 ， 也 可 以 有 一 关系 。 例 如 ， 一 个 进程 可 能 收 到 一 个 消息 ， 后 来 又 发 送 了 另 一 个 消息 ， 
但 这 个 消息 是 每 五 分 钟 发 送 一 次 的 ， 与 第 一 个 消息 没有 特别 的 关系 。 这 里 ， 并 没有 实际 的 因果 关系 ， 
但 这 些 事件 可 以 用 关系 一 来 排序 。 

逻辑 时 钟 Lamport [1978] 发 明了 一 种 简单 的 机 制 ， 称 为 逻辑 时 钟 (logical clock ) ， 它 可 数字 化 
地 捕获 发 生 在 先 排 序 。Lamport 逻辑 时 钟 是 一 个 单调 增长 的 软件 计数 器 ， 它 的 值 与 任何 物理 时 钟 无 关 。 
每 个 进程 p; 维护 它 自己 的 逻辑 时 钟 L;,， 进 程 用 它 给 事件 加 上 所 谓 的 Lamport s) Hg (Lamport times- 
tamp) 。 我 们 用 L (e) BR p, 的 事件 e NEAR, FA L(e) 表 示 发 生 在 任 一 进程 中 的 事件 。 BURT. 

为 了 捕获 发 生 在 先 关系 一 ， 进 程 按 下 列 规 则 修改 它们 的 逻辑 时 钟 ， 并 在 消息 中 传递 它们 的 逻辑 时 钟 值 ; 

ZC1: 在 进程 p, 发 出 每 个 事件 之 前 , Li 加 1: 

L: =L,+1 

LC2: (a) 当 进 程 p, 发 送 消 息 mit, 在 m PUM = Lo 

(b) 在 接收 (m, t) 时 ， 进程 p HAL: =max(L,, t), ARTEL receive (m) 事件 打 时 间 
RRETH LC1。 

尽管 上 面 时 钟 的 增 量 是 1， 但 我 们 可 以 选用 任何 正 数 。 通 过 在 与 事件 。 和 e' 有 关 的 事件 序列 上 进行 
长 度 归 纳 ， 可 以 很 容易 地 看 到 : ee’=>L(e) <L(e')。 

注意 ， 相 反 的 情况 是 不 成 立 的 。 如 果 L(e) <L(e') ， 我 们 不 能 推出 ee’, E 14-6 给 出 了 对 图 14-5 
中 给 出 的 例子 使 用 逻辑 时 钟 的 结果 。 进 程 p, p 和 ps 都 有 各 自 的 逻辑 时 钟 ， 初 始 值 为 0。 时钟 值 紧邻 


着 事件 给 出 。 注 意 ， 例 如 ，Z(8) >L(e) 但 be。 
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P2 > 物理 时 间 
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图 14-6 图 14-5 中 的 事件 的 Lamport ef RR 
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全 序 逻 辑 时 钟 ”一些 由 不 同 进 程 生 成 的 不 同 的 事件 对 会 有 用 数字 值 表示 的 Lamport HR. AM, 
我 们 能 通过 考虑 发 生 事件 的 进程 的 标识 符 来 创建 事件 的 全 序 ， 即 对 所 有 的 事件 对 排序 。 如 果 e 是 在 p 
中 发 生 的 事件 ， 本 地 时 间 戳 为 T， 而 e' 是 在 pj 发 生 的 事件 ， 本 地 时 间 截 为 了， 我 们 为 这 些 事件 分 别 定 
义 全 局 逻辑 时 间 稚 (7T,, d MG, j) SERAT, <T, RT, =T, 以 及 i<j 时 定义 (T, i) < (7, j)o 
这 种 排序 没有 通常 的 物理 意义 《因为 进程 标识 符 是 随机 的 ) ， 但 它 有 时 有 用 。 例 如 ，Lamper 用 它 在 一 
个 临界 区 给 进程 排序 。 

向 量 时 钟 Mattem [1989] 和 Fidge [1991] 开发 了 向 量 时 钟 用 以 克服 Lamport 时 钟 的 缺点 : 我 们 
MA L(e) <L(e') 不 能 推出 ee'。 有 NN 个 进程 的 系统 的 向 量 时 钟 是 入 个 整数 的 一 个 数组 。 每 个 进程 维护 
它 自己 的 向 量 时钟 六， 用 于 给 本 地 事件 加 时 间 堆 。 与 Lamport 时 间 截 类 似 ， 进 程 在 发 送 给 对 方 的 消息 
上 附加 向 量 时 间 惟 ， 更 新 时 钟 的 规则 如 下 : 

VCL: WRF, VG] =0, i, 7=1，2，…，N。 

VC2: Æ p SSM RSA, BBV. =V[i] +1. 

VC3: p, 在 它 发 送 的 每 个 消息 中 包括 值 上 = 下。 

VC4: 当 p; 接收 到 消息 中 的 时 间 蕉 1 时 , WE VU]: =max (VL, 让), f=1, 2, +, No 这 
种 取 两 个 向 量 时 间 蕉 的 最 大 值 的 操作 称 为 合并 (merge) 操作 。 

WBE V, Vili] 是 pi 已 经 附加 时 间 惟 的 事件 的 个 数 ，V.[j] OQ 关 i) BED, 中 发 生 的 可 能 会 影 
响 p; 的 事件 的 个 数 〈 在 这 一 时 刻 ， 进 程 p 可 能 给 多 个 事件 加 时 间 稚 ， 但 至 今 没 有 信息 流向 p.) o 

我 们 用 下 列 方法 比较 向 量 时 间 稚 : 

VeVi Vj] =V [j] G=1, 2, =, N) 
V<V'iff VI <V [j] G=1, 2, =, N) 
V<Viff V<V AVAV' 

设 V(e) 是 发 生 e 的 进程 所 应 用 的 向 量 时 间 戳 。 通 过 在 与 事件 e。 和 e' 相 关 的 事件 序列 的 长 度 上 进行 
归纳 ， 可 以 看 到 ee’ > V(e) <T(e') 。 练 习 10. 13 将 要 读者 证 明 : 如 果 Ve) <V(e’), 那么 ere'。 

图 14-7 给 出 了 图 14-5 中 的 事件 的 向 量 时 间 稚 。 从 图 上 可 以 看 到 ，F(e) <V(f) ,这 反映 了 a-*f 的 
事实 。 类 似 地 ， 通 过 比较 时 间 截 ， 我 们 能 区 分 何 时 两 个 事件 是 并 发 的 。 例 如 ,从 V(c) <V(e) MI Vie) Ve) 
均 不 成 立 的 事实 可 推出 ce。 

(1,0,0) (2,0,0) 


i 一 一 





(2,1,0) (2,2,0) 


Pı 
e d m, 时 间 
(0,0,1) (2,2,2) 
Ps 


图 14-7 图 14-5 Pa AY a A R 


与 Lamport 时 间 规 相 比 ， 疝 量 时 间 稚 的 不 足 在 于 占用 的 存储 以 及 消息 的 有 效 负载 与 进程 数 N 成 正 
比 。Charron- Bost [1991] 证 明 ， 如 果 我 们 能 通过 观察 时 间 蕉 来 区 分 两 个 事件 是 否 并 发 ， 那 么 就 不 可 避 
免 地 用 到 N 维 向 量 。 但 是 ， 想 以 重 构 完整 向 量 为 代价 来 存储 和 传送 更 少量 数据 ， 这 种 技术 是 存在 的 。 
Raynal 和 Singhal [1996] 对 其 中 一 些 技术 进行 了 介绍 。 他 们 还 描述 了 矩阵 时 钊 《matrix clock) 的 概念 ， 
进程 凭借 它 保持 自己 和 其 他 进程 的 向 量 时 间 。 


14.5 全 局 状态 


本 节 和 下 一 节 将 研究 查找 分 布 式 系统 中 的 一 个 性 质 在 系统 执行 时 是 否 成 立 的 问题 。 我 们 从 分 布 式 
无 用 单元 收集 、 死 锁 检测 、 终 止 检 测 和 调试 的 例子 开始 。 
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分 布 式 无 用 单元 收集 : 如 果 在 分 布 式 系统 中 不 再 对 某 个 对 象 进行 任何 引用 ， 那 么 该 对 象 被 认为 是 
无 用 的 。 一 旦 认为 对 象 是 无 用 的 ， 那 么 就 要 
回收 它 所 占据 的 内 存 。 为 了 检查 一 个 对 象 是 
否 是 无 用 的 ,我们 必须 验证 系统 中 对 它 没有 
任何 引用 。 在 图 14-8a 中 ， 进 程 mm 有 两 个 对 
Z, 它们 都 有 引用 一 一 一 个 引用 在 进程 p, 内 
部 ， 而 进程 p, 引用 了 另 一 个 对 象 。 进 程 p。 有 
一 个 无 用 对 象 ， 在 系统 中 没有 对 它 的 引用 。 


还 有 一 个 对 象 ，p 和 ps 都 没有 引用 它 ， 但 在 Pi St 4 
进程 之 间 的 暂 态 消息 中 对 它 进行 了 引用 。 这 ww | 
说 明 ， 当 我 们 考虑 系统 的 性 质 时 ， 我 们 必须 fe 


包括 信道 的 状态 和 进程 的 状态 。 b) 死 锁 
分 布 式 死 锁 检 测 : 当 一 组 进程 中 的 每 一 


个 进程 都 在 等 待 另 一 个 进程 给 它 发 送 消息 ， P, . Pr 
并 且 在 这 种 “等 待 ”关系 图 中 存在 循环 时 ， 活 _ 
就 会 发 生 分 布 式 死 锁 。 在 图 14-8b H, HH p, “t___ 
Al p, 都 在 等 待 对 方 的 消息 ， 所 以 这 个 系统 不 c) 终止 


会 有 任何 进展 。 

分 布 式 终止 检测 : 这 里 的 问题 是 检测 一 图 14-8 检测 全 局 性 
个 分 布 式 算法 是 否 终止 。 检测 终止 是 一 个 听 起 来 很 容易 解决 的 问题 看 起 来 只 要 测试 每 个 进程 是 否 都 
已 经 停止 而 已 。 为 了 说 明 问题 并 不 是 这 么 简单 ， 考 虑 由 进程 p, Mp 执行 的 一 个 分 布 式 算法 ， 每 个 进程 
都 会 请 求 男 一 个 进程 的 值 。 我 们 能 确定 在 个 瞬间 进程 是 主动 的 还 是 被 动 的 一 一 个 被 动 的 进程 没有 
参与 它 自己 的 任何 活动 但 准备 回应 另 一个 进程 请 求 的 信 。 假 设 我 们 发 现 p, 是 被 动 的 ，p, 是 被 动 的 (如 
图 14-8c 所 示 )。 

为 了 说 明 我 们 不 能 推断 算法 已 经 终止 ， 考 虚 下 列 情形 ， 当 我 们 测试 p, 的 被 动 性 时 ， 一 个 消息 在 从 
rn 向 pi 传送 ，p, 在 发 出 该 消息 后 马上 变 成 被 动 的 。p, 接收 消息 后 ， 我 们 发 现 它 又 从 被 动 变 成 主动 。 因 
此 算法 不 能 被 终止 。 

终止 和 死 锁 的 现象 在 某 些 方面 比较 类 似 ,但 它们 是 不 同 的 问题 。 首 先 ， 死 锁 只 影响 系统 中 的 进程 
子 集 ， 而 所 有 进程 必须 终止 。 其 次 ， 进 程 被 动 性 与 死 锁 循环 中 的 等 待 不 一 样 ; 死 锁 进程 试图 执行 进 一 
步 的 动作 ， 该 动作 是 另 一 个 进程 等 待 的 ;一 个 被 动 进程 不 参与 任何 活动 。 

DA RAR: 分布 式 系统 的 调试 非常 复杂 (Bonnaire et al. 1995] 。 要 非常 仔细 才能 确定 系统 执行 过 
程 中 发 生 了 什么 。 例 如 ， 在 Smith 写 的 应 用 中 ， 每 个 进程 p; 包含 一 个 变量 (i=1，2，.…,N)。 变 量 
随 程序 执行 的 进行 而 改变 ， 但 它们 被 要 求 相互 之 间 的 差 值 在 一 个 8 值 范围 内 。 但 是 ， 程 序 中 有 一 个 缺 
陷 ，Smith 怀疑 在 某 种 情况 下 对 某 些 ;和 有 |x, -x | >8， 从 而 破坏 了 一致 性 限制 。 这 里 的 问题 是 在 变 
量 值 变化 的 同时 要 计算 这 种 关系 。 

上 述 的 每 个 问题 都 有 适合 的 解决 方案 ， 但 它们 都 说 明了 观察 全 局 状态 的 必要 ， 所 以 有 必要 开发 一 
个 通用 的 方案 。 


14.5.1 全 局 状态 和 一 致 制 集 


从 原理 上 说 ， 观 察 单个 进程 的 连续 状态 是 可 能 的 ， 但 查 明 系 统 的 全 局 状态 问题 (进程 集 的 状态 ) 
是 非常 困难 的 。 

本 质 的 问题 是 缺乏 全 局 时 间 。 如 果 所 有 进程 都 有 完全 同步 的 时 钟 ， 那 么 我 们 可 以 在 同一 时 间 让 每 
个 进程 记录 下 它 的 状态 一 一 结果 就 是 系统 实际 的 全 局 状态 。 从 进程 状态 集中 我 们 可 以 判断 进程 是 否 发 
生死 锁 等 。 但 我 们 不 能 获得 完美 的 时 钟 同步 ， 所 以 这 个 方法 不 适用 。 

我 们 可 能 会 问 : 利用 不 同时 间 记 录 的 本 地 状态 能 否 得 出 一 个 有 意义 的 全 局 状态 ?答案 是 在 满足 一 
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定 条 件 时 可 以 ， 为 了 说 明 这 一 点 ,我 们 先 引 入 一 些 定义 。 

回 到 及 个 进程 p.(i=1，2,…，,，N) 的 一 般 系统 PP 中， 我 们 将 研究 它 的 执行 过 程 。 在 上 面 说 过 ， 
在 每 个 进程 中 发 生 了 一 系列 事件 ,我 们 可 以 通过 每 个 进程 的 历史 来 描述 每 个 进程 的 执行 过 程 ; 

history(p,) = h; = < ei,ei,0 ,> 

类 似 地 ， 我 们 可 以 考虑 进程 历史 的 任何 一 个 有 限 前 级 : 

k =< eel, o,e > 

每 个 事件 或 是 进程 的 内 部 动作 (例如 ， 更 新 一 个 变量 ) 或 是 在 与 进程 相连 的 信道 上 发 送 或 接收 一 
个 消息 。 

原则 上 ， 我 们 能 记录 在 P 执 行 时 发 生 的 一 切 。 每 个 进程 能 记录 本 进程 发 生 的 事件 ， 以 及 它 经 过 的 
连续 状态 。 我 们 用 st 表示 进程 p 在 第 个 事件 发 生 之 前 的 状态 ， 所 以 5 Ep, 的 初始 状态 。 我 们 注意 
到 ， 在 上 面 的 例子 中 ， 信 道 的 状态 有 时 是 相关 的 。 我 们 不 引入 新 的 状态 类 型 ， 而 是 让 进程 记录 所 有 消 
息 的 发 送 或 接收 作为 状态 的 一 部 分 。 如 果 我 们 发 现 进程 p 已 经 记录 它 发 送 了 消息 m 到 进程 pis), 
那么 通过 检查 p 是 否 接收 到 该 消息 ， 我 们 就 能 推断 出 m 是 否 是 p; Alp, 之 间 信 道 状态 的 一 部 分 。 

通过 取 单 个 进程 历史 的 并 集 ， 我 们 可 以 得 到 P 的 全 局 历史 (global history) : 

H =h, Uh U+ U hya 

数学 上 ， 我 们 可 以 取 单 个 进程 状态 的 任 一 集合 来 形成 一 个 全 局 状态 S= (s ，% ，…，sw) 。 但 是 哪 
个 全 局 状态 是 有 意义 的 ， 也 就 是 说 ， 哪 些 进程 状态 能 同时 发 生 ? 一 个 全 局 状态 相当 于 单个 进程 历史 的 
初始 前 级 。 系 统 执行 的 割 集 (cut) 是 系统 全 局 历史 的 子 集 ， 是 进程 历史 前 缀 的 并 和 集 

C=h UA Us Uh 

在 对 应 于 制 集 C 的 全 局 状态 5 中 的 状态 5, 是 在 由 p, 处 理 的 最 后 一 个 事件 即 ei:i(i=1, 2,…,N) 
ZER p 的 状态 。 事 件 集 [ef i=1, 2, +, N 称 为 割 集 的 边界 (frontier) 。 

考 弄 图 14-9 中 给 出 的 在 进程 和 p, 中 发 生 的 事件 。 该 图 给 出 了 两 个 割 集 ， 一 个 割 集 的 边界 是 
<e, >, A-TABMUWAE <, o>. RERET (inconsistent) 的 。 这 是 因为 在 p, 中 
它 包含 了 对 消息 m Hik, (AED, 中 它 不 包含 对 该 消息 的 发 送 。 这 是 一 个 没有 “原因 ”的 “结果 ”。 
实际 的 执行 不 会 处 于 该 割 集 边界 所 对 应 的 全 局 状态 。 原 则 上 ， 我 们 通过 检查 事件 之 间 的 一 关系 可 获得 
这 一 点 。 相 反 ， 最 右 割 集 是 一 致 (consistent) 的 。 它 包括 消息 的 m 的 发 送 和 接收 。 它 也 包括 m, 的 发 
送 但 不 包括 m 的 接收 。 这 与 实际 执行 相 一 致 ， 毕 况 ， 消 息 要 花 一 些 时 间 才 能 到 达 。 





物理 时 间 





不 一 致 的 割 集 


一 致 的 割 集 
图 14-9 HE 


割 集 C 是 一 致 的 ， 条件 是 对 它 包 含 的 每 个 事件 ， 它 也 包含 了 所 有 在 该 事件 之 前 发 生 的 所 有 事 

件 ， 即 
对 于 所 有 事件 ee C， 广 "一 fe C 

一 致 的 全 局 状态 (consistent global state) 是 指 对 应 于 一 致 制 集 的 状态 。 我 们 可 以 把 一 个 分 布 式 系 

统 的 执行 描述 成 在 系统 全 局 状态 之 间 的 一 系列 转换 : 
So >S 一 >S2 一 > 

在 每 个 转换 中 ， 正 好 一 个 事件 在 系统 的 一 个 进程 中 发 生 。 这 个 事件 或 是 发 送 消息 ， 或 是 接收 消息 ， 

也 可 以 是 一 个 外 部 事件 。 如 果 两 个 事件 同时 发 生 ， 我 们 可 以 认为 它们 按 一 定 的 顺序 发 生 一 一 按照 进程 
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标识 符 排序 《同时 发 生 的 事件 必须 是 并 发 的 ， 不 是 一 个 在 另 一 个 之 前 发 生 ) 。 系 统 通 过 一 致 全 局 状态 
以 这 种 方式 逐步 发 展 。 

“走向 ”(run) 是 全 局 历史 中 所 有 事件 的 全 序 ， 并 且 它 与 每 个 本 地 历史 排序 一 上 =1，2，…，N) 
是 一 致 的 。 线 性 化 走向 或 一 致 的 走向 是 全 局 历史 中 所 有 事件 的 全 序 ， 并 且 与 吾 上 的 发 生 在 先 关系 是 一 
致 的 。 注 意 ， 线 性 化 走向 也 是 一 个 走向 。 

不 是 所 有 的 走向 都 经 历 一 致 的 全 局 状态 ,但 所 有 线性 化 走向 只 经 历 一 致 的 全 局 状态 。 如 果 有 一 个 
经 过 5 和 5 的 线性 化 走向 ， 我们 说 状态 SEARA 5 可 达 的 (reachable)。 

有 了 时， 我 们 可 以 在 一 个 线性 化 走向 中 变换 并 发 事件 的 排序 ， 得 到 的 走向 仍 是 经 历 一 致 全 局 状态 的 
走向 。 例 如 ， 如 果 线 性 化 走向 中 两 个 连续 的 事件 是 由 两 个 进程 接收 消息 ， 那 么 我 们 可 以 交换 这 两 个 事 
件 的 顺序 。 


14.5.2 全 局 状态 谓词 、 稳 定性 、 安 全 性 和 活性 


检测 像 死 锁 和 终止 之 类 的 条 件 实际 上 是 求 一 个 全 局 状态 谓词 的 值 。 全 局 状态 谓词 是 一 个 从 系统 P 
的 进程 全 局 状态 集 映 射 到 {True，False} 的 函数 。 与 对 象 成 为 无 用 、 系 统 死 锁 、 系 统 终止 的 状态 相关 
的 谓词 的 一 个 特征 是 这 些 谓 词 都 是 稳定 的 〈stable) : 一 旦 系统 进入 谓词 值 为 True 的 状态 ， 它 将 在 所 有 
可 从 该 状态 可 达 的 状态 中 一 直 保 持 Te。 相反 ， 当 我 们 监控 或 调试 一 个 应 用 程序 时 ， 我 们 和 通常 对 不 稳 
定 谓 词 感 兴趣 ， 如 在 前 面 的 例子 中 ， 变 量 的 差别 是 受 限 的 。 即 使 应 用 程序 到 达 了 受 限 范围 内 的 一 个 状 
态 ， 它 也 不 必 停留 在 这 个 状态 。 

我 们 还 注意 到 ， 与 全 局 状态 谓词 有 关 的 两 个 概念 : 安全 性 和 活性 。 假 设 有 一 个 不 希望 有 的 性 质 a, 
该 性 质 是 一 个 系统 全 局 状态 的 谓词 。 例 如 ，a 可 以 是 成 为 死 锁 的 性 质 。 设 $ 是 系统 的 原始 状态 。 关 于 
a 的 安全 性 (safety) 是 一 个 断言 ， 即 对 所 有 可 从 S 到 达 的 所 有 状态 $5，a 的 值 为 False。 相 反 , HE 
系统 全 局 状态 希望 有 的 性 质 ， 例 如 ， 到 达 终 止 的 性 质 。 关 于 8B 的 活性 (liveness) 是 对 于 任 一 从 状态 So 
开始 的 线性 化 走向 L， 对 可 从 S 到 达 的 状态 S p KE True, 


14. 5.3 Chandy 和 Lamport 的 “快照 ”算法 


Chandy 和 Lampor [1985] 描述 了 决定 分 布 式 系统 全 局 状态 的 “快照 ”算法 。 该 算法 的 目的 是 记 
录 进 程 集 p;(i=1, 2, ++, N) 的 进程 状态 和 通道 状态 集 ( 快 照 )。 这 样 ， 即 使 所 记录 的 状态 组 合 可 能 
从 没有 在 同一 时 间 发 生 , 但 所 记录 的 全 局 状态 还 是 一 致 的 。 

我 们 将 看 到 ， 快 照 算法 记录 的 状态 能 很 方便 地 用 于 求 稳定 的 全 局 谓词 的 值 。 

算法 在 进程 本 地 记录 状态 ， 它 没有 给 出 在 一 个 场地 收集 全 局 状态 的 方法 。 收 集 状态 的 一 个 简单 方 
法 是 让 所 有 进程 把 它们 记录 的 状态 发 送 到 一 个 指定 的 收集 进程 ， 但 我 们 这 里 不 对 这 个 问题 做 进一步 
讨论 。 

算法 有 如 下 假设 : 

。 不 论 是 通道 还 是 进程 都 不 出 现 故 障 。 通 信 是 可 靠 的 ， 因 此 每 个 发 送 的 消息 最 终 被 完整 地 接收 

一 次 。 

。 通道 是 单 向 的 ， 提 供 FIFO 顺序 的 消息 传递 。 

。 描述 进程 和 通道 的 图 是 强 连接 的 〔 任 意 两 个 进程 之 间 有 一 条 路 径 ) 。 

。 任 一 进程 可 在 任 一 时 间 开 始 一 个 全 局 快照 。 

。 在 拍 快照 时 ， 进 程 可 以 继续 它们 的 执行 ， 并 发 送 和 接收 消息 。 

对 每 个 进程 p;:， 设 接 入 通道 (incoming channel) 是 其 他 进程 向 p; 发 送 消 息 的 通道 。 类 似 的 ，p; 的 
外 出 通道 (outgoing channel) 是 p, 向 其 他 进程 发 送 消息 的 通道 。 算 法 的 基本 思想 如 下 : 每 个 进程 记录 
它 的 状态 ， 对 每 个 接 入 通道 还 记录 发 送 给 它 的 消息 。 对 每 个 通道 ， 进 程 记录 在 它 自己 记录 下 状态 之 后 
和 在 发 送 方 记录 下 它 自己 状态 之 前 到 达 的 任何 消息 。 这 种 安排 可 以 记录 不 同时 间 的 进程 状态 并 且 能 用 
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已 传送 但 还 没有 接收 到 的 消息 说 明 进 程 状态 之 间 的 差别 。 如 果 进 程 p; 已 经 向 进程 p, 发 送 了 消息 m, 但 
P 还 没有 接收 到 ， 那 么 m 属于 它们 之 间 通 道 的 状态 。 

算法 使 用 了 特殊 的 标记 (marker) 消息 ， 它 与 进程 发 送 的 其 他 消息 不 一 样 ， 它 可 在 正常 执行 中 发 
送 和 接收 。 标 记 有 双重 作用 : 如 果 接 收 者 还 没有 保存 自己 的 状态 ， 那 么 标记 作为 提示 ; 作为 一 种 决定 
哪个 消息 包括 在 通道 状态 中 的 手段 。 

算法 定义 了 两 个 规则 : 标记 接收 规则 和 标记 发 送 规 则 (如 图 14-10 所 示 ) 。 标 记 接 收 规则 强制 进程 
在 记录 下 自己 的 状态 之 后 但 在 它们 发 送 其 他 消息 之 前 发 送 一 个 标记 。 


进程 p, 的 标记 接收 规则 
2 接收 通道 < 上 的 标记 消息 : 


if (p, 还 没有 记录 它 的 状态 》 
Pj 记录 它 的 进程 状态 ; 
将 c 的 状态 记 成 空 集 ; 
开始 记录 从 其 他 接 入 通道 上 到 达 的 消息 ; 


else 











Pp 把 c 的 状态 记录 成 从 保存 其 状态 以 来 它 在 c 上 接收 到 的 消息 集合 。 
end if 


进程 p, 的 标记 发 送 规则 
在 pm 记录 了 其 状态 之 后 ， 对 每 个 外 出 通道 c: 
(在 p, 从 c 上 发 送 任 何其 他 消息 之 前 ) 
也 在 c 上 发 送 一 个 标记 消息 。 











图 14-10 Chandy 和 Lamport 的 “快照 ”算法 


标记 接收 规则 强制 没有 记录 状态 的 进程 去 记录 状态 。 在 这 种 情况 下 ， 这 是 进程 接收 到 的 头 一 
个 标记 。 它 记录 在 其 他 接 入 通道 上 后 来 收 到 了 哪个 消息 。 当 一 个 已 保存 状态 的 进程 接收 到 一 
(在 另 一 个 通道 上 的 ) 标记 ， 它 就 把 从 它 保存 其 状态 以 来 所 接收 到 的 消息 集合 作为 那个 通道 的 状 
态 记录 下 来 。 

任何 进程 可 以 在 任何 时 候 开始 这 个 算法 。 进 程 好 像 已 接收 到 一 个 〈 在 一 个 不 存在 的 通道 上 的 ) 标 
记 ， 并 遵循 标记 接收 规则 。 这 样 ， 进 程 记录 它 的 状态 并 开始 记录 在 所 有 接 人 通道 上 到 达 的 消息 。 几 个 
进程 可 以 以 这 种 方式 并 发 地 开始 记录 《只 要 能 区 别 它们 使 用 的 标记 ) 。 

我 们 用 一 个 系统 来 说 明 这 个 算法 ， 这 个 系统 有 两 个 进程 p, 和 p,， 它 们 通过 两 个 单 向 通道 c, 和 c 
相连 。 两 个 进程 进行 “窗口 部 件 ” 交 易 。 进 程 p 通过 c, Wp, 发 送 窗 口 部 件 的 订单 ， 并 以 每 个 窗口 部 
件 10 美元 附 上 货款 。 一 段 时 间 以 后 ， 进 程 p, 沿 通道 c, Ap 发 送 窗口 部 件 。 进 程 的 初始 状态 如 
图 14-11 所 示 。 进 程 p, 已 经 接收 到 5 个 窗口 部 件 的 订单 ， 它 将 马上 分 发 给 Pi 。 


Cl 


账户 窗口 账户 ao 
部 件 部 件 


图 14-11 两 个 进程 和 它们 的 初始 状态 
图 14-12 给 出 了 系统 的 执行 过 程 并 记录 系统 的 状态 。 进 程 p 在 实际 的 全 局 状态 S 中 记录 它 的 状 


态 ， 当 时 p, 的 状态 是 < $1000, 0 > 。 根 据 标记 发 送 规 则 ， 进 程 p, 在 它 通过 通道 c, 发 送 下 一 个 应 用 层 


消息 (Order 10, $100) 之 前 ， 在 它 的 外 出 道道 c 上 发 送 一 个 标记 消息 。 系 统 进入 实际 的 全 局 状 
Æ Sio 
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1. 全 局 状态 5o < $ 1000,0> ca (2) < $ 50,2000> 
Ci 


CE) 


2. 全 局 状态 5, < $900,0> c& 〔 订 单 10,$ 100) ,M < $ 50,2000> 


Cl (3) 


3. 全 局 状态 $, < $ 900,0> c, 《订单 10,$ 100) ,M < $ 50,1995> 


c (SSB O BREE) 


4. 全 局 状态 5， < $900,5> c 《订单 10, $ 100) < $ 50,1995> 
e) O 
c 


CE) 
CM= 标 记 消息 
图 14-12 图 14-11 中 进程 的 执行 


Ep, 接收 到 标记 之 前 ， 它 通过 o 发 出 一 个 应 用 消息 (5 个 窗口 部 件 ) 以 响应 m 以 前 的 订单 ， 产 
生 新 的 实际 全 局 状态 5,。 

现在 ,进程 p, 接收 到 p, 的 消息 (5 个 窗口 部 件 ) p 接收 到 标记 。 根 据 标 记 接 收 规则 ，p, 将 它 的 
状态 记录 成 < $50, 1995 > ， 将 通道 c 的 状态 记录 成 空 序列 。 根 据 标记 发 送 规 则 ， 它 通过 c, 发 送 标记 
消息 。 

当 进 程 p, 接收 到 p, 的 标记 消息 时 ， 它 将 通道 o 的 状态 记录 成 在 它 第 一 次 记录 它 的 状态 之 后 接收 
到 的 那个 消息 (5 个 窗口 部 件 ) 。 最 后 实际 的 全 局 状态 是 So 

最 后 记录 的 状态 是 pi: < $1000, 0>; p: < $50, 1995>; c: < (5 个 窗口 部 件 ) >; o: <>, 
注意 ， 这 个 状态 与 系统 实际 经 过 的 所 有 全 局 状态 不 同 。 

快照 算法 的 终止 ”我 们 假设 一 个 已 经 接收 到 一 个 标记 消息 的 进程 在 有 限 的 时 间 里 记录 了 它 的 状态 ， 
并 在 有 限 的 时 间 里 通过 每 个 外 出 通道 发 送 了 标记 消息 (即使 它 不 再 需要 在 这 些 通道 上 发 送 应 用 消息 )。 
如 果 有 一 条 从 进程 p 到 进程 pi) 的 信道 和 进程 的 路 径 ， 那么 可 假设 ,在 p; 记录 它 的 状态 之 后 的 有 
限时 间 里 p 将 记录 它 的 状态 。 因 为 我 们 假设 进程 和 通道 图 是 强 连接 的 ， 所 以 在 一 些 进 程 记 录 它 的 初始 
状态 之 后 的 有 限时 间 内 ， 所 有 的 进程 将 记录 它们 的 状态 和 接 人 通道 的 状态 。 

刻画 所 观察 到 的 状态 ”快照 算法 从 执行 的 历史 中 选择 了 一 个 割 集 。 因 此 ， 割 集 与 该 算法 记录 的 状 
态 是 一 致 的 。 为 了 说 明 这 一 点 , Re; Me, 分 别 是 在 p, Ap, 中 发 生 的 事件 ， 且 有 es 一 e。 我 们 断言 ， 如 
Re EARE, WA e WEAR, HREM, WME e 在 户 记 录 它 的 状态 之 前 发 生 ， 那 么 e 必须 在 p， 
记录 它 的 状态 之 前 发 生 。 如 果 两 个 进程 是 相同 的 ， 那 么 这 一 点 非常 明显 ， 所 以 我 们 假设 jxi。 BRE 
前 我 们 要 证 明 的 是 : Ee 发 生 之 前 p 记录 了 它 的 状态 。 考 虑 五 个 消息 序列 mi ，m,，…， mn(H>1)， 
有 关系 e 一 6。 通过 在 传递 这 些 消息 的 通道 上 进行 FIFO 排序 ， 以 及 标记 发 送 和 接收 规则 ， 一 个 标记 消 
息 将 在 每 个 m ，m,，…，ma 之 前 到 达 p,。 根 据 标记 接收 规则 ，p, 将 在 事件 。 之 前 记录 它 的 状态 。 这 
与 我 们 e 在 割 集中 的 假设 相 矛 盾 ， 所 以 得 证 。 

我 们 将 在 根据 算法 运行 时 所 观察 到 的 全 局 状态 与 初始 和 最 后 的 全 局 状态 之 间 建 立 可 达 关 系 。 设 
Sys =ee，el ，… 是 系统 执行 时 的 线性 化 走向 〈 若 两 个 事件 同时 发 生 ， 我 们 将 按照 进程 标识 符 给 它们 排 
序 ) 。 设 Su 是 在 第 一 个 进程 记录 它 的 状态 之 前 的 全 局 状态 ，$u 是 在 快照 算法 终止 〈 最 后 一 个 状态 记 
录 动 作 之 后 ) 的 全 局 状态 ，S,。 是 所 记录 的 全 局 状态 。 

我 们 将 找到 Sys 的 一 个 排列 ，Sys' = 6 ，ei ，ei，…， 使 得 三 个 状态 Saan Spar Sma 都 在 Sys' 中 发 
E, Soap FLSA Sys' 中 的 Su 处 到 达 ，Sau 可 从 Sys' 中 的 5 处 到 达 。 图 14- 13 给 出 了 这 种 情况 ， 上 面 的 线 
性 化 走向 是 9%s， 下 面 的 线性 化 走向 是 Ss. 

我 们 首先 通过 把 Sys 中 的 所 有 事件 分 成 快照 前 事件 (Pre- snap event) 或 快照 后 事件 〈post- snap 
event), M Sys 得 到 Sys’, DERE p, 的 快照 前 事件 是 在 进程 p, 记录 它 的 状态 之 前 发 生 的 事件 ， 其 他 事件 是 
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快照 后 事件 。 如 果 事 件 在 不 同 的 进程 中 发 生 ， 那 么 在 Sys 中 快照 后 事件 可 以 在 快照 前 事件 之 前 发 生 ， 
理解 这 一 点 是 很 重要 的 〈 当然 ， 在 同一 进程 中 ， 快 照 前 事件 之 前 不 可 能 发 生 快照 后 事件 ) 。 





实际 执行 e0,e,,… 
ae 记录 记录 A 
m 开始 结束 Sprat 
快照 前 : eel, : 快照 后 : Cre Reis 


图 14-13 在 快照 算法 中 状态 之 间 的 可 达 性 


我 们 将 给 出 在 快照 后 事件 之 前 给 快照 前 事件 排序 的 方法 以 获得 Sys'。 假 设 e 是 一 个 进程 的 快照 后 
事件 ， 而 e,: 是 另 一 个 进程 的 快照 前 事件 。 不 能 得 到 ej 一 ej,, 。 这 两 个 事件 可 能 分 别 是 一 个 消息 的 发 送 
和 接收 。 标 记 消 息 必须 在 消息 之 前 ， 使 得 消息 的 接收 是 一 个 快照 后 事件 ,但 根据 假设 6, 是 一 个 快照 
前 事件 。 因 此 我 们 可 以 在 不 违反 发 生 在 先 关系 的 前 提 下 交换 两 个 事件 (也 就 是 说 ,事件 的 结果 序列 仍 
然 是 一 个 线性 化 走向 ) 。 交 换 并 不 引入 新 的 进程 状态 ， 因 为 我 们 没有 改变 任何 单个 进程 发 生 的 事件 的 
顺序 。 

我 们 继续 以 这 种 方式 交换 相 邻 事件 对 ， 直 到 在 Sys' 执 行 结果 中 ， 所 有 快照 前 事件 e'。，e'! ，e';,，… 
e'r-! 排 列 在 所 有 快照 后 事件 e'r, Cir C ay … 之 前 。 对 每 个 进程 ， 在 e'， ey, Ca, 775 e'g-1 中 的 该 
进程 发 生 的 事件 集 正好 是 它 在 记录 它 的 状态 之 前 经 历 的 事件 集 。 因 此 ， 在 那 一 时 刻 每 个 进程 的 状态 和 
信道 的 状态 就 是 算法 记录 的 全 局 状态 S。。。 我 们 不 干扰 线性 化 走向 开始 和 结束 的 状态 Sin M Sharo X 
RE, 我们 就 建立 了 可 达 关 系 。 

所 观察 到 的 状态 的 稳定 性 和 可 达 关 系 ”快照 算法 的 可 达 性 质 对 检测 稳定 谓词 非常 有 用 。 通 常 ,在 
状态 Srp PRX True 的 任何 不 稳定 谓词 在 记录 全 局 状态 的 实际 执行 中 可 以 是 True， 也 可 以 不 是 True。 
但 是 ， 如 果 在 5,, 状 态 中 稳定 谓词 为 True， 那么 我 们 可 以 肯定 在 56, 状态 中 谓词 是 True。 因 为 由 定义 可 
知 ， 一 个 状态 5 为 True 的 稳定 谓词 在 从 5 可 达 的 任 一 状态 都 是 True。 类 似 地 ， 如 果 对 于 S,_ RASA Tal 
为 False， 那 么 在 Su 状态 ， 该 谓词 也 一 定 是 False。 


14.6 分 布 式 调试 


我 们 现在 研究 记录 系统 全 局 状态 的 问题 ， 以 便 我 们 能 对 实际 执行 中 的 暂 态 状态 〈 与 稳定 状态 相 
反 ) 做 出 有 用 的 判断 。 这 是 调试 分 布 式 系统 时 通常 所 要 求 的 。 上 面 我 们 给 出 了 一 个 例子 ， 即 进程 集合 中 的 
每 一 个 进程 P 都 有 一 个 变量 x;。 在 这 个 例子 中 ， 所 要 求 的 安全 条 件 是 | x, -% | <d(i, j=1, 2, =, N); 
即使 进程 可 能 在 任何 时 候 改 变 它 的 变量 值 ， 也 要 满足 这 个 限制 。 另 一 个 例子 是 一 个 控制 工厂 管道 系统 
的 分 布 式 系统 ， 这 里 我 们 感 兴趣 的 是 是 否 所 有 的 阀门 〈 由 不 同 的 进程 控制 ) 在 某 些 时 间 都 是 开放 的 。 
在 这 些 例 子 里 ， 通 常 我 们 不 能 同时 观察 变量 的 值 或 阀门 的 状态 。 这 里 我 们 面临 的 挑战 是 随时 监控 系统 
的 执行 〈 即 捕获 “跟踪 ”信息 而 不 是 单个 快照 ) 以 便 我 们 能 在 此 之 后 了 解 所 要 求 的 安全 条 件 是 否 成 立 
或 已 被 破坏 。 

Chandy 和 Lamport 的 快照 算法 [1985] 按 分 布 的 方式 收集 状态 ， 我 们 指出 了 系统 中 的 进程 如 何 把 
它们 收集 的 状态 发 送 给 一 个 监控 进程 。 下 面 描述 的 算法 (归功 于 Marzullo 和 Neiger [1991]) 是 集中 式 
的 。 被 观察 的 进程 将 它们 的 状态 发 送 到 一 个 称 为 监控 器 的 进程 ， 监 控 器 根据 接受 到 的 信息 汇总 成 全 局 
一 致 状态 。 我 们 认为 监控 器 在 系统 之 外 观察 系统 的 执行 。 

我 们 的 目的 是 在 我 们 所 观察 的 系统 执行 的 某 一 点 判定 一 个 给 定 的 全 局 状态 谓词 了 明确 为 True， 以 
及 它 可 能 为 True 的 情况 。 出 现 “ 可 能 ”这 个 概念 是 很 自然 的 事 ， 因 为 我 们 可 以 从 一 个 执行 系统 中 抽取 
一 个 一 致 的 全 局 状态 S 并 发 现 $(5) 为 Tue。 仅 仅 观 察 一 个 一 致 的 全 局 状态 我 们 无 法 判断 出 一 个 非 稳 
定 谓词 在 实际 的 执行 中 是 否 曾 为 True。 不 过 ， 我 们 有 兴趣 了 解 它们 是 否 有 可 能 发 生 ， 直 到 我 们 通过 观 
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察 系统 的 执行 来 明确 这 一 点 。 

概念 “明确 ”应 用 于 实际 执行 ， 而 不 是 应 用 于 我 们 推断 的 运作 。 考 虑 在 实际 的 执行 中 发 生 了 什么 听 
起 来 有 点 荒 雇 ,但 是 ,通过 考虑 所 观察 事件 的 所 有 线性 化 走向 是 有 可 能 判断 出 由 是否 明确 为 True 的。 

现在 我 们 按照 的 线性 化 走向 为 谓词 p 定义 可 能 的 中 和 明确 的 由 概念 。 

可 能 的 由 可 能 的 4 意味 着 存在 一 个 一 致 的 全 局 状态 5, 是 的 一 个 线性 化 走向 经 历 了 这 个 全 局 状态 
S$， 而 且 该 5 使 得 $(5) 为 True。 

明确 的 由 明确 的 由 意味 着 对 于 五 的 所 有 线性 化 走向 也， 存在 工 经 历 的 一 个 一 致 的 全 局 状态 $5， 使 
得 (5) X True, 

当 我 们 使 用 Chandy 和 Lamport 的 快照 算法 ， 并 获得 全 局 状态 Satt, WMR Sap) 正好 是 True, 
那么 我 们 就 可 以 认为 可 能 的 由 成 立 。 但 通常 ， 求 解 可 能 的 由 需要 对 从 所 观察 到 的 执行 中 得 出 的 所 有 一 
致 的 全 局 状态 进行 搜索 。 仅 对 所 有 一 致 的 全 局 状态 S 有 中 (5) 为 False， 这 还 不 是 可 能 的 的 情况 。 还 
要 注意 ， 虽 然 我 们 从 ” 可 能 的 四 能 得 出 明确 的 (~ 中) ， 但 我 们 不 能 从 明确 的 〈- 由 ) 得 出 ~ 可 能 的 由 
后 者 是 指 如 下 断言 : 在 每 个 线性 化 走向 中 ， 对 于 部 分 状态 - 由 成立， 而 对 于 另 一 部 分 状态 由 成 立 。 

我 们 现在 描述 : 如 何 收集 进程 状态 ;监控 器 如 何 抽取 一 致 的 全 局 状态 ; 监控 器 如 何在 异步 和 同步 
系统 中 求解 可 能 的 o 和 明确 的 $。 


14. 6.1 收集 状态 


所 观察 的 进程 p.(i =1，2，…，N) 最 初 用 状态 消息 向 监控 器 进程 发 送 它们 的 初始 状态 ， 这 以 后 也 会 
不 时 发 送 状 态 消息 。 监 控 器 进程 在 单独 的 队列 Q CG1, 2, --, M 中 记录 来 自 进程 p; 的 状态 消息 。 

准备 和 发 送 状态 消息 的 活动 可 能 会 延迟 所 观察 进程 的 正常 执行 ， 但 对 其 他 方面 没有 受 干 扰 。 除 了 
初始 时 和 状态 改变 时 ， 其 他 时 候 没 有 必要 发 送 状态 信息 。 有 两 种 优化 方法 可 减少 发 送 到 监控 器 的 状态 
消息 流量 。 第 一 ， 全 局 状态 谓词 可 以 只 依赖 进程 状态 的 某 一 部 分 。 倒 如 ， 它 可 以 仅 依赖 特定 变量 的 状 
态 。 这 样 ， 所 观察 的 进程 只 需要 向 监控 器 进程 发 送 相关 状态 。 第 二 ， 进 程 仅 在 谓词 变 成 True 或 不 再 为 
True 时 发 送 它们 的 状态 。 发 送 不 影响 谓词 值 的 状态 的 变化 是 没有 意义 的 。 

例如 ， 在 进程 P 应 该 遵循 | x -x | <d(i, j=1, 2, 0, M) 限制 的 系统 例子 中 ， 进 程 只 需要 在 它们 自 
己 的 变量 x, 的 值 改 变 时 通知 监控 器 。 当 它们 发 送 状态 时 ， 它 们 只 需 提供 的 值 而 不 需要 发 送 其 他 变量 。 


14.6.2 观察 一 致 的 全 局 状态 

为 了 计算 由 ， 监 控 器 必须 汇总 一 致 的 全 局 状态 。 先 回忆 一 下 ， 一 个 割 集 C 是 一 致 的 当 且 仅 当 对 制 
集 C 中 所 有 的 事件 。 有 广 *e 一 fs C 时 。 

例如 ， 图 14-14 给 出 了 两 个 进程 p, 和 p,， 它 们 分 别 有 变 量 x, Mx. Æ RAA HEERA) 时 间 
线 上 的 事件 是 对 两 个 变量 的 值 作 调 整 。 初 始 的 时 候 ，x, = =0。 要 求 是 | x, -r | <50。 进 程 对 变量 作 
调整 , 但 “大 的 ”调整 将 使 包含 新 值 的 消息 被 发 送 到 其 他 进程 。 当 一 个 进程 从 另 一 个 进程 接收 到 一 个 
调整 消息 ， 它 会 把 它 的 变量 设 成 消息 中 所 含 的 值 。 


(1,0), (2.0) (3,0) (4,3) 
mel \x=100  x,=105 








图 14-14 执行 图 14-9 产生 的 向 量 时 间 稚 和 变量 值 
每 次 进程 p. 或 p, 中 的 一 个 调整 了 它 的 变量 值 〈 不 论 是 “小 的 ”调整 还 是 “大 的 ”调整 ) ， 它 就 通 
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过 状态 消息 给 监控 器 进程 发 送 一 个 值 。 监 控 器 进程 在 为 记 、P 而 设置 的 队列 中 保存 该 消息 用 于 分 析 。 
如 果 监 控 器 进程 使 用 图 14-14 中 不 一 致 制 集 C, 中 的 值 ， 那 么 它 将 发 现 x, =1, x, =100， 这 违反 了 约束 
| x, -和 | 志 50。 但 这 个 状态 是 不 会 发 生 的 。 另 一 方面 ， 来自 一 致 制 集 C, 的 值 显示 = 105, x, =90。 

为 了 让 监控 器 区 分 不 一 致 的 全 局 状态 和 一 致 的 全 局 状态 ， 被 观察 的 进程 在 它们 的 状态 消息 中 附 上 
了 向 量 时 钟 值 。 每 个 队列 O 都 以 发 送 顺 序 排序 ， 这 是 通过 检查 向 量 时 间 戳 的 第 ;个 部 分 实现 的 。 监 控 
器 进程 可 能 因为 变量 消息 有 延迟 而 从 到 达 次 序 上 推断 不 出 不 同 进程 发 送 的 状态 的 顺序 。 它 必须 检查 状 
态 消息 的 向 量 时 间 截 。 

BS=(s,, sz，…，sw) 是 从 监控 器 进程 接收 到 的 状态 消息 中 得 出 的 全 局 状态 。 设 V(s;) 是 从 p 
接收 到 的 状态 s MAAR, BAS 是 一 致 的 全 局 状态 当 且 仅 当 : 

V(s,)(i] = Ws) [i] (i,j = 1,2,…,N) 一 一 (CGS 条 件 ) 

BREW, “Gp, 发 送 时 ，P 知道 的 p; 的 事件 个 数 不 多 于 在 p; RIE s 时 在 p; 发 生 的 事件 个 数 。 换 
句 话 说 ， 如 果 一 个 进程 的 状态 依赖 于 另 一 个 进程 的 状态 (根据 发 生 在 先 排 序 )， 那么 全 局 状态 也 包含 
了 它 所 依赖 的 状态 。 

总 之 ， 我 们 的 方法 是 使 用 由 被 观察 进程 保持 的 向 量 时 间 蕉 和 在 被 观察 进程 发 送 给 监控 器 的 状态 消 
息 上 附带 信息 ， 这 样 ， 监 控 器 进程 可 以 判断 一 个 给 定 的 全 局 状态 是 否 一 致 。 

图 14-15 给 出 了 与 图 14-14 的 两 个 进程 执 ”层次 0 


行 相对 应 的 一 致 的 全 局 状态 的 网 格 。 这 个 结 。 ， s” 
构 捕 获 了 一 致 全 局 状态 之 问 的 可 达 性 关系 。 y 和- 在 进程 1 发生 事件 /以 及 在 揭 程 
结 点 表示 全 局 状态 ， 边 表示 状态 之 间 可 能 的 ” “ van 发 生 事件 /之 后 的 全 局 状态 
变换 。 全 局 状态 Sw 表示 在 初始 状态 中 有 两 个 3 s Sa 
WE; SRR ps 仍 在 它 的 初始 状态 , P 处 在 Ns N, 
它 的 本 地 历史 中 的 下 一 个 状态 。 状 态 Sy, 不 是 VZN 
一 致 的 ， 因 为 消息 四 Ap 发 送 到 p,， 所 以 它 5 Sn pe 
没有 出 现在 网 格 中 。 6 Su 
网 格 按 层次 排列 ， 例 如 ，Su 在 层次 0, Se ， Se 
在 层次 1。 通常 ，5; 位 于 层次 (i +j)。 线 性 化 
走向 从 任 一 全 局 状态 开始 遍历 网 格 到 达 下 一 图 14-15 执行 图 11-14 产生 的 全 局 状态 网 格 


层 的 全 局 状态 ， 也 就 是 说 ， 在 每 一 步 ， 都 有 一 些 进 程 经 历 了 一 个 事件 。 例 如 ， 可 从 Sw 到 达 Sy, (AA 
能 从 So 到 达 5,,。 

网 格 给 出 了 与 一 个 历史 相对 应 的 所 有 线性 化 走向 。 现 在 从 原理 上 能 清楚 地 知道 一 个 监控 器 进程 应 
如 何 判定 可 能 的 由 和 明确 的 由。 为 了 判定 可 能 的 由 ， 监 控 器 进程 从 初始 状态 开始 ， 经 过 从 这 点 开始 可 
到 达 的 所 有 一 致 状态 ， 在 每 一 步 判 定 b。 当 中 判定 为 True 时 停止 计算 。 为 了 判定 明确 的 由 ， 监 控 器 进 
程 必须 试图 找到 所 有 线性 化 走向 必须 经 过 的 $ 判定 为 True 的 状态 集 。 例 如 ， 如 果 图 14-15 中 的 由 So) 
Al @(S,,) 都 是 True， 那 么 因为 所 有 的 线性 化 走向 经 过 这 些 状 态 ， 所 以 明确 的 由 成 立 。 


14.6.3 判定 可 能 的 中 


为 了 判定 可 能 的 ， 监 控 器 进程 必须 从 初始 状态 (st, 哑 ，…，s) FEM, HAT ORAS N RN 
算法 如 图 14-16 所 示 。 算 法 假设 执行 是 无 限 的 。 但 可 以 很 容易 地 将 它 改 成 有 限 的 执行 。 

根据 下 列 方法 ， 监 控 器 进程 可 以 发 现在 上 +1 层 中 的 可 从 工 层 一 个 给 定 的 一 致 状态 可 达 的 一 致 状态 
集 。 设 $ =(5,, 82, «1, Sy) 是 一 个 一 致 的 状态 ， 那 么 从 S 可 达 的 下 一 层 的 一 致 状态 具有 3 = (s1, 825 075 
sn, Sy) 的 形式 ， 它 与 8 的 不 同 仅仅 在 于 包含 了 一 些 进程 p; 的 〈 在 一 个 事件 之 后 的 ) 下 一 个 状态 。 
通过 遍历 状态 消息 0:(i=1，2，…，A) 的 队列 ， 监 控 器 能 找到 所 有 这 样 的 状态 。 状 态 8 从 $ 可 达 当 
HAM: 

Vesp G] > Ws] (f=1,2,,N, jz i) 
该 条 件 来 自 上 面 的 CGS 条 件 以 及 5 已 经 是 一 个 一 致 的 全 局 状态 这 个 事实 。 通 常 一 个 给 定 的 状态 可 
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从 前 一 层 的 几 个 状态 到 达 ， 所 以 监控 器 进程 应 该 仅 对 每 个 状态 判定 一 次 一 致 性 。 













1. 对 N 个 进程 的 全 局 历史 有 求解 可 能 的 Y 


Se { (853-554) Js 
while 《对 所 有 的 SE States,@CS) = False) 
L:=L+1; 
Reachable:= {SHB JA — ESE States 可 到 达 的 状态 level (SD = = 
Spry =Reachgble ptt r hy ‘ 
end while 
输出 “可 能 的 分 ”; 
2. 对 入 个 进程 的 全 局 历史 求解 明确 的 6 
L:= 0; 
Tf (GC s9, 53 +++,82) ) FRA States:= {} else States := { (s°,s9,-++,5%) k 
while (States#{}) 
L:=L+1; 
Reachable:= 1S 万 中 从 一 些 SE States 可 到 达 的 状态 Aievel (S9 = L); 
States:= (SE Reachable: $ (S) = False} 
end while 
输出 “明确 的 办 





图 14-16 求解 可 能 的 中 和 明确 的 由 


14.6.4 判定 明确 的 中 

为 了 判定 明确 的 由 ， 监 控 器 进程 再 次 从 初始 状态 (s, 2, + Sy) 开始 ， 每 次 一 层 地 遍历 可 到 达 
状态 的 网 格 。 算 法 (如 图 14-16 Bras) 又 一 次 假设 执行 是 无 限 的 ， 但 它 可 很 容易 地 改 成 有 限 的 执行 。 
EAP States RE, BRA SASL ob 为 False 的 状态 可 从 初始 状态 线性 化 可 达 的 状态 。 
只 要 这 样 的 线性 化 走向 存在 ， 我 们 就 不 可 以 断言 明确 的 由 执行 可 以 采用 这 个 线性 化 走向 ,在 每 个 
阶段 可 以 是 False。 如 果 我 们 到 达 了 一 个 不 存在 这 样 的 线性 化 走向 的 层 ， 我 们 就 能 断定 明确 的 由 

在 图 14-17 中 , 第 3 层 中 的 States 集 仅 由 一 个 状态 组 成 ， 这 个 状态 通过 一 个 所 有 状态 都 是 False 
(用 粗 线 标记 ) 的 线性 化 走向 可 达 。 第 4 层 只 考虑 一 个 标记 为 “F” 的 状态 。( 右边 的 状态 没有 被 考虑 ， 
因为 它 仅 能 通过 由 判定 为 True 的 状态 到 达 。) 如 果 中 在 第 5 层 的 状态 为 True， 那 么 我 们 可 以 断定 明确 
的 $。 否 则 ， 算 法 必须 在 这 个 层次 上 继续 。 


层次 0 Va 





F= ($C(S) =False) ;T= (CS) =True) 


F - 
N.Z 
? 
图 14-17 判定 明确 的 中 


开销 ”刚才 描述 的 算法 是 组 合 爆 炸 的。 假设 是 一 个 进程 中 的 事件 的 最 大 个 数 。 那 么 我 们 描述 的 
算法 需要 O) 次 比较 (监控 器 进程 相互 比较 入 个 所 观察 的 进程 的 状态 ) 。 
这 些 算法 的 空间 开销 是 0( 太 ) 。 但 是 ， 我 们 观察 到 ， 当 从 另外 进程 到 达 的 其 他 状态 项 不 可 能 与 包 
E s 的 一 个 一 致 的 全 局 状态 相关 时 ， 就 是 说 ， 在 下 列 条 件 成 立时 : 
Vis") [i] > V(s,) [i] G =1,2,,N, Aj # i) 
其 中 %” 是 监控 器 进程 从 进程 六 接收 到 最 后 的 状态 ， 那 么 监控 器 进程 可 以 从 队列 @; 删除 包含 状态 
si 的 消息 。 


第 14 章 ”时间 和 全 局 状态 - 369 


14.6.5 在 同步 系统 中 判定 可 能 的 四 和 明确 的 内 

到 目前 为 止 ， 我 们 所 给 出 的 算法 在 一 个 异步 系统 中 工作 : 我 们 没有 设置 时 序 的 假设 。 但 为 此 付出 
的 代价 是 对 于 监控 器 所 检查 的 一 个 一 致 的 全 局 状态 5 = (s, ，s,，…，sn)， 在 系统 实际 执行 时 ， 其 中 任 
意 两 个 本 地 状态 * 和 s 可 能 间隔 任意 长 的 时 间 发 生 。 而 现在 ， 我 们 的 需求 是 仅 考虑 这 些 实际 执行 在 原 
则 上 能 遍历 的 全 局 状态 。 

在 同步 系统 中 ,假设 进程 均 将 它们 的 物理 时 钟 内 部 同步 在 一 个 已 知 的 范围 ， 并 假设 所 观察 的 进程 
在 它们 的 状态 消息 中 提供 物理 时 间 稚 和 向 量 时 间 鞭 。 接 着 给 定时 钟 的 近似 同步 值 ， 监 控 器 进程 仅 需要 
考虑 那些 本 地 状态 可 能 已 经 同时 存在 的 一 致 金 局 状 态 。 在 足够 精确 的 时 钟 同步 条 伞 下 ， 这 些 状态 的 数 
量 将 比 所 有 全 局 一 致 状态 少 。 

我 们 现在 按 这 种 方式 给 出 一 个 算法 来 利用 同步 时 钟 。 假 设 每 个 要 观察 的 进程 p,(i=1, 2,…,N) 
和 监控 器 进程 (我 们 称 为 p。〉 保 持 一 个 物理 时 钟 C;(i = 0，1L1，2，…，WN) 。 它 们 在 一 个 已 知 的 范围 
D>0 内 同步 。 也 就 是 说 ， 在 同一 实际 时 间 ， 有 

| CD - C(t) | < DGiy = 0,1,.%,N) 

所 观察 的 进程 将 带 有 向 量 时 间 和 物理 时 间 的 状态 消息 发 送 给 监控 器 进程 。 监 控 器 进程 现在 应 用 一 
个 条 件 ， 该 条 件 不 仅 用 于 测试 全 局 状态 S = (5,, s, 77, Sy) 的 一 致 性 ， 而 且 在 给 定 物 理 时 钟 值 时 用 
于 测试 是 否 在 同一 实际 时 间 能 发 生 每 对 状态 ， 换 甸 话 说 ,对 i, J=1，2，…，N， 有 

Vs) [il = VCs) [i], E s, os, 能 在 同一 实际 时 间 发 生 

条 件 的 第 一 个 部 分 是 我 们 以 前 使 用 的 条 件 。 对 于 第 二 个 部 分 ,我 们 注意 到 p 是 从 它 第 一 次 通知 监 
控 器 进程 的 时 间 C;(s;) 到 稍 后 的 本 地 时 间 L,(s,) COTE p 发 生 下 一 个 状态 变换 ) 的 时 候 均 处 在 状态 
so 考虑 到 时 钟 同 步 的 边界 ， 对 在 同一 实际 时 间 上 获得 的 s, As, A: 

C(s) -DS C(s) <L,(s,) +D, 反 之 亦 然 (交换 i 和 由 

监控 器 进程 必须 计算 L,(s;) 的 值 ， 这 个 值 是 用 p; 的 时 钟 来 度量 的 。 如 果 监 控 器 进程 已 经 接收 到 p, 
的 下 一 个 状态 s' REHA, WALE) WEG) TU, HERRE L (s) 估计 为 Co -max +D, 
其 中 C, 是 监控 器 当前 的 本 地 时 钟 值 ，max 是 状态 消息 的 最 大 传输 时 间 。 
14.7 小 结 

本 章 的 开始 描述 了 分 布 式 系统 精确 计时 的 重要 性 ， 接 着 描述 了 同步 时 钟 的 算法 ， 尽管 存在 时 钟 漂 
移 和 计算 机 之 间 消 息 延迟 的 可 变性 。 

实际 可 获得 的 同步 精确 度 可 满足 许多 需求 ， 但 对 于 判断 发 生 在 不 同 计算 机 上 的 任意 事件 对 的 排序 还 是 
不 够 的 。 发 生 在 先 关系 是 事件 的 偏 序 关系 ， 它 反映 了 事件 之 间 的 信息 流 一 一 这 些 事件 或 在 一 个 进程 中 ， 或 
是 两 个 进程 之 间 的 消息 。 一 些 算法 要 求 事件 按 发 生 在 先 顺序 排序 ， 例 如 ， 后 续 的 更 新 在 数据 的 一 个 单独 的 备 
份 里 进行 。Lamport 时 钟 是 一 个 计数 器 ， 它 们 依照 事件 之 间 的 发 生 在 先 关 系 进行 更 新 。 向 量 时 钟 是 Lamport 
时 钟 的 改进 ， 因 为 通过 检查 它们 的 向 量 时 间 戳 ， 可 以 判断 两 个 事件 是 按 发 生 在 先 关系 排序 还 是 并 发 的 。 

我 们 介绍 了 下 列 概念 : 事件 、 本 地 历史 、 全 局 历史 、 割 集 、 本 地 状态 、 全 局 状态 、 走 向 、 一 致 状 
态 、 线 性 化 走向 (一致 走向 ) 和 可 达 性 。 一 致 状态 或 走向 是 与 发 生 在 先 关系 一 致 的 状态 。 

接着 ， 我 们 考虑 通过 观察 系统 执行 来 记录 一 致 全 局 状态 的 问题 。 我 们 的 目的 是 判定 这 个 状态 上 的 
谓词 。 有 一 类 重要 的 谓词 是 稳定 谓词 。 我 们 描述 了 Chandy 和 Lamport 的 快照 算法 ， 它 捕获 一 致 全 局 状 
态 ， 并 允许 我 们 就 一 个 稳定 谓词 是 否 在 实际 执行 中 成 立 给 出 断言 。 接 着 我 们 给 出 了 Marzullo 和 Neiger 
的 算法 ， 用 于 判断 一 个 谓词 是 否 在 实际 的 走向 中 成 立 或 可 能 成 立 。 算 法 采用 一 个 监控 器 进程 收集 状态 。 
监控 器 检查 向 量 时 间 截 来 抽取 一 致 的 全 局 状态 ， 它 构造 并 检查 所 有 一 致 全 局 状态 的 网 格 。 这 个 算法 的 
计算 复杂 性 很 高 ， 但 对 理解 很 有 价值 ， 它 比较 适合 只 有 相对 少 的 事件 改变 全 局 谓词 值 的 实际 系统 。 这 
个 算法 有 一 个 适合 于 时 钟 可 以 同步 的 同步 系统 的 变种 。 


练习 
14.1 “为 什么 计算 机 时 钟 同步 是 必要 的 ? 撒 述 用 于 同步 分 布 式 系统 中 的 时 钟 的 系统 设计 需求 。 
(第 596 页 ) 
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14.2 


14.3 


14.4 


14.5 


14.6 


14.7 


14.8 


14.9 


14. 10 


14. 11 


14. 12 


14. 13 


14. 14 


14. 15 


14. 16 


第 14 章 时间 和 全 局 状态 


当 发 现 一 个 时 钟 快 4s 时 ， 它 的 读数 是 10:27:54.0 《小 时 :分 钟 : 秒 ) 。 解 释 为 什么 这 时 不 愿 将 时 钟 设 成 

正确 的 时 间 ， 并 (用 数字 表示 ) 给 出 它 应 该 如 何 调整 以 便 在 8s 后 变 成 正确 的 时 间 。 (第 600 页) 

一 种 实现 至 多 一 次 的 可 靠 消息 传递 的 方案 是 使 用 同步 时 钟 来 拒 收 重复 的 消息 。 进 程 在 它们 发 送 的 消 

PREAH IRTP (— “RTE” ) 。 每 个 接收 者 为 每 个 发 送 进程 维护 一 张 表 ， 在 其 中 给 出 了 

它 已 看 到 的 最 大 的 消息 时 间 截 。 假 设 时 钟 被 同步 在 100ms 范围 ， 消 息 在 传递 后 至 多 50ms 能 到 达 。 

1) 如 果 一 个 进程 已 经 记录 了 从 另 一 个 进程 接收 到 的 最 后 的 消息 的 时 间 惟 为 了， 那么 这 个 进程 何 时 
能 忽略 具有 时 间 稚 了 的 消息 ? 

2) 何 时 接收 方 能 从 它 的 表 中 删除 时 间 蕉 175 000ms? (提示 : 使 用 接收 者 本 地 的 时 钟 值 。) 

3) 时 钟 应 该 进行 内 部 同步 还 是 外 部 同步 ? (第 601 页 ) 

一 个 客户 试图 与 一 个 时 间 服 务 器 同步 。 它 在 下 表 中 记录 了 由 服务 器 返回 的 往返 时 间 和 时 间 蕉 。 

下 面 哪 个 时 间 可 以 用 于 设置 它 的 时 钟 ? 它 应 该 设 成 什么 时 间 ? 与 服务 器 时 钟 相 比 ， 估 计 设 置 的 精确 

性 。 如 果 已 知 系统 发 送 消 息 和 接收 消息 之 间 的 时 间 是 至 少 gems， 那 么 你 的 答案 应 该 如 何 改变 ? 


往返 时 间 (ms) ip 时 : 
22 10:54:23. 674 










25 10:54:25. 450 
20 10:54:28. 342 
(第 601 页 ) 
在 练习 14.4 的 系统 中 ， 要 求 将 文件 服务 器 时 钟 同步 在 + lms 的 范围 和 内。 讨论 它 与 Cristian 算法 的 关系 。 
(第 601 W) 
在 NTP 同步 子 网 中 ， 你 希望 发 生 怎样 的 重 配置 ? (第 604 页 ) 


一 个 NTP 服务 器 B 在 16: 34: 23.480 接收 到 来 自 服务 器 A 的 带 有 时 间 稚 16; 34: 13.430 的 消息 ， 
并 对 消息 给 出 了 应 答 。A 在 16: 34: 15.725 接收 到 带 有 B 的 时 间 惟 16: 34; 25.7 的 消息 。 估 计 B 和 
A 之 间 的 偏差 和 估计 的 精确 性 。 (第 605 页 ) 
讨论 当 决 定 一 个 客户 应 该 与 娜 一 个 NTP 服务 器 同步 它 的 时 间 时 ， 应 该 考虑 什么 因素 。 (55606 页 ) 
通过 观察 时 间 的 漂移 率 ， 讨 论 补偿 同步 点 之 间 的 时 钟 漂移 的 可 能 方法 。 讨 论 该 方法 的 局 限 性 。 


(第 607 页 ) 
通过 考虑 连接 事件 。 和 。 的 零 或 多 个 消息 的 链 ， 并 使 用 归纳 方法 证 明 ere’ L(e) <L(e')。 

(第 608 页 ) 
WEA Vii] <V[i]. (第 609 页 ) 
按 练习 14. 10 的 方式 ,证 明 e 一 e' 一 T(e) < Ye )。 (58 610 页 ) 
利用 练习 14. 11 的 结果 ， 证 明 如 果 事 件 。 和 e' 是 并 发 的 ， 那么 V(e)<V(e') 和 VV (e') <V(e) 均 不 
成 立 。 因 此 证 明 : WR Ve) <e), 那么 有 ee'。 (第 610 页 ) 


两 个 进程 P 和 @ 用 两 个 道道 连 成 一 个 环 ， 它 们 不 断 地 轮转 消息 严 。 在 任何 时 刻 ， 系 统 中 只 有 一 份 mm 
的 拷贝 。 每 个 进程 状态 由 它 接收 到 m 的 次 数组 成 ,，P 首先 发 送 m。 在 某 一 点 ，P 得 到 消息 且 它 的 状 
态 是 101。 在 发 送 m Za, 了 启动 快照 算法 。 给 定 由 快照 算法 报告 的 可 能 的 全 局 状态 〈s) ， 试 解释 
该 情况 下 算法 的 操作 。 (第 615 页 ) 


Pi 和 > 
C X 时 间 

Pr o 
上 图 给 出 了 在 两 个 进程 p, Ap 中 发 生 的 事件 。 进 程 之 间 的 箭头 表示 消息 传递 。 
从 初始 状态 (0, 0) 开始 ， 画 出 并 标注 一 致 状态 (pi 的 状态 、P 的 状态 ) 的 网 格 。 (第 622 页 ) 
Jones 正在 运行 一 组 进程 p ，p, ，…，pwn。 每 个 进程 p 包含 一 个 变量 v,。 她 希望 判定 所 有 变量 v, 
2 ，…, Dn 在 执行 中 是 否 相 等 。 
1) Jones 的 进程 在 同步 系统 中 运行 。 她 使 用 一 个 监控 器 进程 判定 变量 是 否 相 等 。 应 用 进程 何 时 应 该 


与 监控 器 进程 通信 ? 它们 的 消息 应 该 包含 什么 ? 
2) 解释 语句 ，possibly (v, =v, =… =0y). Jones 如 何 能 判定 该 语句 在 她 的 执行 中 成 立 。 ”第 623 页 ) 
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协调 和 协定 


本 章 介绍 的 主题 和 算法 与 如 下 问题 有 关 : 在 发 生 故 障 时 ， 分 布 式 系统 中 的 进程 如 何 协调 它们 的 动 
作 和 对 共享 值 达成 协定 。 本 章 将 首先 介绍 实现 一 组 进程 互 斥 的 算法 ,该 算法 可 用 于 协调 这 些 进程 对 共 
享 资源 的 访问 。 接 下 来 研究 在 分 布 式 系统 中 如 何 实现 选取 ， 即 在 前 一 个 协调 者 出 现 故 障 后 ， 一 组 进程 
如 何 能 就 新 协调 者 达成 一 致 。 

本 章 后 半 部 分 研究 与 组 播 通信 、 共 识 、 拜 占 庭 协 定 和 交互 一 致 性 有 关 的 问题 。 在 组 播 中 ， 问 题 是 
对 消息 发 送 顺序 这 样 的 事情 如 何 达 成 协定 。 共 识 和 其 他 的 问题 是 由 如 下 问题 归纳 而 来 ; 一 组 进程 如 何 
对 一 些 值 达成 协定 ， 而 不 管 这 些 值 的 值 域 是 什么 。 我 们 会 遇 到 分 布 式 系统 理论 中 的 一 个 基本 结果 : 在 
某 些 条 件 下 《甚至 包括 良性 故障 条 件 ) 不 可 能 保证 进程 会 达成 共识 。 


15.1 简介 


本 章 将 介绍 一 组 算法 ， 这 些 算 法 目标 不 同 ， 但 却 都 具有 分 布 式 系统 的 一 个 基本 目的 : 供 一 组 进程 
来 协调 它们 的 动作 或 对 一 个 或 多 个 值 达 成 协定 。 例 如 ， 对 于 像 太 空 船 这 样 的 复杂 设备 ， 一 个 基本 要 求 
是 就 控制 它 的 各 个 计算 机 能 对 太空 船 的 任务 是 继续 还 是 已 经 终止 这 样 的 条 件 达成 协定 。 此 外 ， 各 个 计 
算 机 必须 正确 地 协调 它们 关于 共享 资源 (太空 船 的 传感器 和 传动 装置 ) 的 动作 。 计 算 机 必须 能 做 到 这 
些 ， 即 使 在 各 个 部 分 之 间 没 有 固定 的 主 - 从 关系 ( 主 - 从 关系 会 使 协调 变 得 简单 ) 。 避 免 固 定 的 主 - 
从 关系 的 原因 是 ， 我 们 经 常 希望 系统 在 出 现 故 障 时 也 能 正确 工作 ， 因 此 就 需要 避免 单 节 《〈 例 如 固定 的 
主 控 器 ) 故障 。 

正如 在 第 14 章 中 那样 ， 对 于 我 们 来 说 ， 一 个 重要 的 差别 是 所 研究 的 分 布 式 系统 是 异步 的 还 是 同步 
的 。 在 异步 系统 中 不 做 时 序 上 的 假设 。 在 同步 系统 中 ， 我 们 假设 消息 传送 的 最 大 延迟 、 进 程 的 每 步 运 
行 时 间 以 及 时 钟 漂移 率 都 有 约束 。 这 些 同 步 假 设 允 许 我 们 用 超时 来 检测 进程 月 省 。 

除了 讨论 算法 外 ， 本 章 的 另 一 个 重要 目的 是 考虑 故障 以 及 在 设计 算法 时 如 何 处 理 故障 。 本 章 将 使 
用 2.4.2 节 介 绍 的 一 个 故障 模型 。 处 理 故 障 是 一 个 精细 的 工作 ， 因 此 我 们 先 考 起 一 些 不 容许 故障 的 算 
法 ， 然 后 考虑 针对 良性 故障 的 算法 ， 直 到 过 湾 到 考虑 怎样 容许 随机 故障 。 我 们 会 遇 到 分 布 式 系统 理论 
中 的 一 个 基本 结果 : 即使 在 良性 故障 条 件 下 ， 在 异步 系统 中 也 不 可 能 保证 一 组 进程 能 对 一 个 共享 值 达 
成 协定 ,例如 太空 船 的 所 有 控制 进程 对 “继续 任务 ”或 “放弃 任务 ”达成 协定 。 

15. 2 节 将 研究 分 布 式 互 斥 问题 。 这 是 大 家 熟悉 的 在 内 核 和 多 线程 应 用 中 避免 竞争 条 件 的 问题 在 分 
布 式 系统 中 的 扩展 。 由 于 在 分 布 式 系统 中 遇 到 的 多 是 资源 共享 问题 ， 因 此 这 是 一 个 重要 的 要 解决 的 问 
题 。 随 后 ，15. 3 节 将 介绍 一 个 与 之 相关 但 更 一 般 的 问题 ， 即 如 何 “ 选 举 ” 一 组 进程 中 的 一 个 来 完成 特 
定 任务 。 例 如 ， 在 第 14 章 中 ， 我 们 看 到 进程 如 何 把 时 钟 与 一 个 指定 的 时 间 服 务 器 同步 。 如 果 这 个 服务 
器 出 现 故 障 ， 而 有 多 个 正常 的 服务 器 可 以 完成 这 一 任务 ， 那 么 为 了 一 致 性 起 见 ， 必 须 只 选择 一 个 服务 
器 来 接管 。 

组 播 通信 中 的 协调 与 协定 是 15. 4 节 的 主题 。 正 如 在 4. 4. 1 节 解 释 的 ， 组 播 是 一 个 非常 有 用 的 通信 
范 型 ， 从 定位 资源 到 协调 复制 数据 的 更 新 都 有 相应 的 应 用 。15. 4 节 将 研究 组 播 的 可 靠 性 和 排序 语义 ， 
并 给 出 多 种 算法 。 组 播 传递 本 质 上 是 进程 间 的 协定 问题 ， 即 接收 者 对 接收 哪些 消息 和 按 什么 顺序 接收 
消息 达成 一 致 。15. 5 节 将 从 更 一 般 性 的 角度 讨论 协定 问题 ， 主 要 形式 是 共识 和 拜占庭 协定 。 

本 章 后 面 的 论述 包括 陈述 假设 和 要 达到 的 目标 ， 以 及 以 非 形 式 化 方式 解释 所 给 出 的 算法 为 何 是 正 
确 的 。 由 于 篇 幅 所 限 ， 此 处 没有 提供 更 严 烙 的 论述 。 读 者 可 参考 详细 介绍 分 布 式 算法 的 教材 ， 如 Attiya 
和 Welch [1998] 编写 的 教材 以 及 Lynch [1996] 编写 的 教材 。 

在 给 出 问题 和 算法 之 前 ， 我 们 先 讨论 分 布 式 系统 中 的 故障 假设 和 检测 故障 的 实际 问题 。 





[630] 


372 + 第 15 章 协调 和 协定 


故障 假设 和 故障 检测 器 


为 简单 起 见 ， 本 章 假设 每 对 进程 都 通过 可 靠 的 通道 连接 。 也 就 是 说 ， 尽 管 底层 网 络 组 件 可 能 出 现 
故障 ， 但 进程 使 用 能 屏蔽 故障 的 可 靠 通信 协议 ， 例 如 通过 重 传 丢 失 或 损坏 的 消息 来 屏 项 故障 。 为 保持 
简洁 性 ， 我 们 还 假设 进程 故障 不 隐 含 对 其 他 进程 的 通信 能 力 的 威胁 。 这 意味 着 没有 进程 依赖 于 其 他 进 
程 来 转发 消息 。 

注意 ， 一 个 可 靠 的 通道 最 终 将 消息 传递 到 接收 者 的 输入 缓冲 区 。 在 同步 系统 中 ， 我 们 假设 在 必要 
的 地 方 有 硬件 元 余 ， 以 便 在 出 现 底层 故障 时 ， 可 靠 通道 不 仅 最 终 能 传递 每 个 消息 ， 而 且 能 在 指定 时 间 
内 完成 传递 工作 。 | 

在 某 个 时 间 间 隔 内 ， 一 些 进程 之 间 的 通信 可 能 成 功 ， 而 另 一 些 进程 之 间 的 通信 则 被 延迟 。 例 如 ， 
两 个 网 络 之 间 的 路 由 器 故障 可 能 意味 着 4 个 进程 被 分 为 两 对 ， 每 个 网 络 内 的 进程 对 可 以 通信 ， 但 两 对 
进程 间 在 路 由 器 故障 时 是 不 可 能 进行 通信 的 。 这 称 为 网 络 分 区 (network partition) (参见 图 15-1)。 在 
一 个 点 对 点 的 网 络 上 〈 如 互联 网 ) ， 复 杂 的 拓扑 结构 和 独立 
的 路 由 选择 意味 着 连接 可 能 是 非 对 称 的 〈asymmetric) ， 即 从 
进程 p 到 进程 g 可 以 通信 , 但 反之 不 行 。 连 接 还 可 能 是 非 传 
递 的 ， 也 就 是 说 ， 从 进程 p 到 进程 q 和 从 进程 q 到 进程 > 都 
可 以 通信 ,但 bp 不 能 直接 与 > 通信。 因此 ， 我 们 的 可 靠 性 假 
设 要 包括 任何 有 故障 的 链接 或 路 由 器 最 终 会 被 修复 或 避 开 的 brat 
内 容 。 然 而 ， 所 有 进程 不 能 够 同时 进行 通信 。 

除非 特别 说 明 ， 本 章 假定 进程 只 在 月 省 时 出 故障 。 这 个 
假定 对 许多 系统 来 说 都 足够 了 。 在 15. 5 节 ， 我们 将 考虑 如 何 
对 待 进 程 有 随机 (FEAR) 故障 的 情况 。 不 论 何 种 故障 ， 一 图 15-1 网 络 分 区 
个 正确 的 进程 是 在 所 考虑 的 运行 中 任何 点 都 没有 故障 的 进 
程 。 注 意 ， 正 确 性 应 用 于 整个 运行 ， 而 非 运行 的 一 部 分 。 因 此 ， 一 个 出 现 裔 省 故障 的 进程 在 某 一 点 之 
前 是 “无 故障 ”的 ， 但 不 是 “正确 ”的 。 

设计 克服 进程 崩溃 的 算法 所 遇 到 的 问题 之 一 是 判断 进程 何 时 已 经 前 泪 。 改 障 检 测 器 (failure detec- 
tor) [Chandra and Toueg 1996, Stelling et al. 1998] 是 一 个 服务 ， 该 服务 用 于 处 理 有 关 某 个 进程 是 否 已 
经 出 现 故 障 的 查询 。 故 障 检测 器 通常 是 由 〈 同一 计算 机 上 的 ) 每 个 进程 中 的 一 个 对 象 实现 的 ， 此 对 象 
与 其 他 进程 的 对 应 部 分 一 起 执行 一 个 故障 检测 算法 。 每 个 进程 中 的 这 个 对 象 叫做 本 地 故障 检测 器 〈]lo- 
cal failure detector) 。 我 们 稍 后 将 介绍 如 何 实现 故障 检测 器 ， 但 首先 我 们 关注 故障 检测 器 的 一 些 性 质 。 

一 个 故障 “检测 器 ”没有 必要 精确 。 它 们 大 多 属于 不 可 人 靠 故 障 检测 器 (unreliable failure detector) 
的 范畴 。 当 给 出 一 个 进程 标识 时 ， 一 个 不 可 靠 故 障 检 测 器 可 以 产生 下 列 两 个 值 之 一 :Unsuspected 和 
Suspected。 这 两 种 结果 都 是 提示 ， 这 种 提示 可 能 精确 地 也 可 能 不 精确 地 反映 进程 是 否 确实 出 故障 了 。 
Unsuspected 表示 检测 器 最 近 已 收 到 表明 进程 没有 故障 的 证 据 ， 例 如 ， 最 近 从 该 进程 收 到 一 个 消息 。 但 
是 那个 进程 可 以 自 那 以 后 出 现 故 障 。Suspected 表示 故障 检测 器 有 迹象 表明 进程 可 能 已 经 出 故障 了 。 例 
如 ， 在 多 于 最 长 沉默 时 间 里 没有 收 到 来 自 进程 的 消息 〈 即 使 在 异步 系统 里 ， 实 际 使 用 的 上 限 也 可 被 作 
为 提示 ) 。 这 样 的 怀疑 可 能 是 错 的 : 例如 ， 进 程 可 能 正常 运行 ， 但 在 网 络 分 区 的 另 一 边 ; 或 者 进程 可 能 
运行 得 比 预期 慢 得 多 。 

可 靠 的 故障 检测 器 (reliable failure detector) 是 能 精确 检测 进程 故障 的 检测 器 。 对 于 进程 的 询问 ， 
它 回答 Unsuspected (与 前 面 一 样 ， 这 只 是 一 个 提示 ) 或 Failed。Failed 表示 检测 器 确定 进程 已 崩溃 。 如 
前 所 述 ， 已 崩溃 进程 会 保持 原状 ， 因 为 根据 定义 ， 进 程 一 旦 甬 演 就 不 会 再 采取 其 他 步 又 。 

要 注意 ， 尽 管 我 们 说 一 个 故障 检测 器 是 作用 于 一 组 进程 的 ， 但 是 故障 检测 器 对 一 个 进程 的 应 答 只 
是 相当 于 该 进程 可 用 的 信息 。 故 障 检 测 器 有 时 会 对 不 同 的 进程 给 出 不 同 的 应 答 ， 因 为 不 同 进程 的 通信 
条 件 不 同 。 

我 们 可 以 用 下 述 算法 实现 不 可 靠 的 故障 检测 器 。 每 个 进程 向 其 他 所 有 进程 发 送 消息 “p is here”, 
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并 且 每 隔 7 了 秒 发 送 一 次 。 夏 障 检 测 器 用 最 大 消息 传输 时 间 D( 秒 ) 作为 评估 值 。 如 果 进 程 g 的 本 地 故 
障 检测 器 在 最 后 一 次 了 +D 秒 内 没有 收 到 “Pp is here” 的 消息 ， 则 向 9 报告 p 是 Suspected, HÆ, WMR 
后 来 收 到 “p is here” HE, MI g 报告 p 是 OK, 

在 实际 的 分 布 式 系统 中 ， 消 息 传送 时 间 是 有 限制 的 。 电 子 邮件 系统 也 会 在 几 天 后 放弃 ， 即 使 很 可 
能 通信 和 链 路 和 路 由 器 在 此 时 间 里 已 被 修复 。 如 果 我 们 为 了 和 D 选择 很 小 的 值 〈 比如 它们 总 共 为 0. 1s), 
那么 故障 检测 器 很 可 能 会 多 次 怀疑 非 崩溃 的 进程 ， 并 且 大 部 分 带宽 会 被 “p is here” HEH. WRR 
们 选择 一 个 大 的 总 超时 值 〈 比 如 一 星期 ) ， 那 么 崩溃 的 进程 会 经 常 被 报告 为 Unsuspected。 

对 于 此 问题， 一 个 实用 解决 方案 是 使 用 反映 所 观察 网 络 延迟 条 件 的 超时 值 。 如 果 本 地 故障 检测 器 
在 20 秒 而 不 是 预期 的 10 DAKE “p is here”， 那 么 它 会 依据 此 值 为 重 置 超时 值 。 这 个 故障 检测 器 
仍然 是 不 可 靠 的 ， 它 对 询问 的 回答 仍 只 是 提示 ， 但 检测 精确 的 概率 增加 了 。 

在 同步 系统 中 ， 可 以 使 我 们 的 故障 检测 器 变 得 可 靠 。 我 们 可 以 选择 D, 使 得 它 不 是 一 个 评估 值 ， 
而 是 消息 传输 时 间 的 绝对 界限 。 如 果 在 T+D 秒 内 没有 收 到 消息 “p is here” ,那么 本 地 故障 检测 器 就 
可 以 得 出 p 已 经 崩溃 的 结论 。 

读者 可 能 想 知道 故障 检测 器 是 否 实用 。 不 可 靠 故障 检测 器 可 能 怀疑 一 个 无 故障 的 进程 ( 即 它们 可 
能 是 不 精确 的 ) ;它们 也 可 能 不 怀疑 一 个 已 经 出 现 故障 的 进程 〈( 即 它们 可 能 是 不 完全 的 ) 。 另 一 方面 ， 
可 靠 的 故障 检测 器 要 求 系统 是 同步 的 (而 实际 系统 很 少 是 同步 的 ) 。 

我 们 介绍 故障 检测 器 是 因为 它们 有 助 于 我 们 了 解 分 布 式 系 统 中 故障 的 本 质 ， 而 任何 用 于 应 对 故障 
的 实际 系统 必须 检测 故障 一 一 不 管 多 么 不 完美 。 但 是 即使 是 不 可 靠 的 故障 检测 器 ， 只 要 它 具 有 某 些 良 
构 特 性 ， 也 能 为 我 们 提供 解决 方案 来 处 理发 生 故障 时 进程 协调 问题 。 我 们 在 15. 5 节 再 讨论 这 个 问题 。 


15.2 分布 式 互 斥 


分 布 式 进程 常常 需要 协调 它们 的 动作 。 如 果 一 组 进程 共享 一 个 或 一 组 资源 ， 那 么 访问 这 些 资源 时 ， 
常 需要 互 斥 来 防止 干扰 并 保证 一 致 性 。 这 就 是 在 操作 系统 领域 中 常见 的 临界 区 问题 。 然 而 ， 在 分 布 式 
系统 中 ， 一般 来 说 ， 共 享 变 量 或 者 单个 本 地 核心 提供 的 设施 都 不 能 用 来 解决 这 个 问题 。 我 们 需要 一 个 
解决 分 布 式 互 斥 问 题 的 解决 方案 : 一 个 仅 基 于 消息 传送 的 解决 方案 。 

在 某 些 情 况 下 ， 管 理 共享 资源 的 服务 器 也 提供 互 斥 机 制 。 第 16 章 将 描述 服务 器 如 何 同步 客户 对 资 
源 的 访问 。 但 在 某 些 实际 情况 下 ， 需 要 一 个 单独 的 用 于 互 斥 的 机 制 。 

考虑 多 个 用 户 更 新 一 个 文本 文件 的 情况 。 保 证 他 们 更 新 一 致 的 一 个 简单 方法 是 ， 要求 编辑 器 在 更 
新 之 前 锁 住 文件 ， 一 次 只 允许 一 个 用 户 访问 文件 。 第 12 章 描述 的 NSF 文件 服务 器 是 无 状态 的 ， 因 此 不 
支持 文件 加 锁 。 为 此 ，UNIX 系统 提供 由 守护 进程 locked 实现 的 一 个 文件 加 锁 服 务 ， 用 于 处 理 客户 的 加 
锁 请 求 。 

一 个 特别 有 趣 的 例子 是 一 组 对 等 进程 在 没有 服务 器 的 环境 下 ， 必 须 协调 它们 对 共享 资源 的 访问 。 
这 种 情况 经 常 出 现在 以 太 网 、“ 自 组 织 ” 模 式 的 IEEE 802. 11 无 线 网 等 网 络 中 ， 其 中 网 络 接口 作为 对 等 
成 分 进行 协作 ， 使 得 在 共享 介质 上 一 次 只 有 一 个 结 点 进行 传输 。 再 考虑 一 个 监控 一 个 停车 场 空位 数 的 
系统 ， 在 每 个 人 口 和 出 口 有 一 个 进程 来 跟踪 进出 车 辆 的 数目 。 每 个 进程 记录 停车 场 内 车 辆 总 数 ， 并 且 
显示 停车 位 是 否 已 满 。 这 些 进 程 必须 一 致 地 更 新 车 辆 数 的 数目 。 有 儿 个 方法 能 实现 这 一 点 ， 比 较 方便 
的 方法 是 这 些 进程 只 要 通过 相互 通信 就 能 互 斥 ， 这 样 可 以 不 需要 单独 的 服务 器 。 

具有 用 于 分 布 式 互 斥 的 一 般 机 制 是 有 用 的 一 一 这 种 机 制 独立 于 特定 的 资源 管理 方案 。 我 们 现在 就 
来 研究 可 达到 这 一 目的 算法 。 


互 斥 算法 
考虑 无 共享 变量 的 个 进程 p;,，(i=1，2,，…，N) 的 系统 。 这 些 进程 只 在 临界 区 访问 公共 资源 。 
为 简单 起 见 ， 我 们 假设 只 有 一 个 临界 区 。 这 可 以 很 容易 地 把 我 们 将 要 介绍 的 算法 扩展 到 多 个 临界 区 。 
假设 系统 是 异步 的 ， 进 程 不 出 故 谭 ， 并 且 消 息 传递 是 可 靠 的 ， 这 样 传递 的 任何 消息 最 终 都 被 完整 
地 恰好 发 送 一 次 。 
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执行 临界 区 的 应 用 层 协 议 如 下 : 

enter1 /进入 临界 区 如 果 必 要 ,可 以 阻塞 进入 
resourceAccesses () // 在 虱 界 区 访问 共享 资源 

exit 0 /离开 临界 区 一 一 其 他 进程 现在 可 以 进入 

我 们 对 互 斥 的 基本 要 求 如 下 : 

ME1: (安全 性 ) 在 临界 区 (CS) 一 次 最 多 有 一 个 进程 可 以 执行 。 
ME2: (W) 进入 和 离开 临界 区 的 请 求 最 终 成 功 执行 。 


条 件 ME2 隐 含 着 既 无 死 锁 也 无 饥饿 问题 。 死 锁 涉 及 两 个 或 多 个 进程 ， 它 们 由 于 相互 依赖 而 在 试图 
进入 或 离开 临界 区 时 被 无 限期 地 锁 住 。 但 是 ， 即 使 没有 死 锁 ， 一 个 差 的 算法 也 可 能 导致 饥饿 问题 ， 进 
程 的 进入 请 求 被 无 限 推迟 。 

没有 饥 煞 问题 是 一 个 公平 性 条 件 。 另 一 个 公平 性 问题 是 进程 进入 临界 区 的 顺序 。 按 进程 请 求 的 时 
间 决 定 进入 临界 区 的 顺序 是 不 可 能 的 ， 因 为 没有 全 局 时 钟 。 但 有 时 使 用 的 一 个 有 用 的 公平 性 条 件 利用 
了 请 求 进入 临界 区 的 消息 之 间 的 发 生 在 先 顺序 (参见 14.4 节 ) : 

ME3; (一 顺序 ) 如 果 一 个 进入 CS 的 请 求 发 生 在 先 ， 那 么 进入 CS 时 仍 按 此 顺序 。 

如 果 一 种 解决 方案 用 发 生 在 先 顺序 来 决定 进入 临界 区 的 先后 ， 并 且 如 果 所 有 请 求 都 按 发 生 在 先 建 
立 联 系 ， 那 么 在 有 其 他 进程 等 待 时 ， 一 个 进程 就 不 可 能 进入 临界 区 多 于 一 次 。 这 种 顺序 也 允许 进程 协 
调 它们 对 临界 区 的 访问 。 一 个 多 线程 的 进程 可 以 在 一 个 线程 等 待 进 入 临界 区 时 ， 继 续 进 行 其 他 处 理 。 
在 此 期 间 ， 它 可 能 给 另 一 进程 发 消息 ， 该 进程 因此 也 试图 进入 临界 区 。ME3 指定 第 一 个 进程 在 第 二 个 
进程 之 前 被 准予 进入 临界 区 。 

我 们 按 下 列 标准 评价 互 斥 算法 的 性 能 : 

o 消耗 的 带宽 (bandwidth) ， 与 在 每 个 entry 和 exit 操作 中 发 送 的 消息 数 成 比例 。 

。 每 一 次 entry 和 exit 操作 由 进程 导致 的 客户 延迟 。 

。 算法 对 系统 吞吐 量 (throughput) 的 影响 。 这 是 在 假定 后 续 进 程 间 的 通信 和 是 必 要 的 条 件 下 ， 

一 组 进程 作为 一 个 整体 访问 临界 区 的 比率 。 我 们 用 一 个 进程 离开 临界 区 和 下 一 个 进程 进入 临 
界 区 之 间 的 同步 延迟 (synchronization delay) 来 衡量 着 这 个 影响 。 当 同步 延迟 较 短 时 ， 吞 吐 
量 较 大 。 

在 我 们 的 描述 中 ， 没 有 考虑 资源 访问 的 具体 实现 。 但 是 我 们 假设 客户 进程 行为 正常 ， 并 且 在 临界 
区 中 花费 有 限 的 时 间 去 访问 资源 。 

中 央 服 务 器 算法 “实现 互 斥 的 最 简单 的 方法 是 使 用 一 个 服务 器 来 授予 进入 临界 区 的 许可 。 图 15-2 
给 出 了 该 服务 器 的 使 用 。 要 进入 一 个 临界 区 ， 一 服务 器 
个 进程 向 服务 器 发 送 一 个 请 求 消息 并 等 待 服务 器 请 求 队列 
的 应 答 。 从 概念 上 说 ， 该 应 答 构成 一 个 表示 人 允许 
进入 临界 区 的 令 牌 。 如 果 在 请 求 时 没有 其 他 进程 
拥有 这 个 令 牌 服务器 就 立刻 应 答 来 授予 令 牌 。 SETEM 
如 果 此 时 另 一 进程 持 有 该 令 牌 ， 那 么 服务 器 就 不 
应 答 而 是 把 请 求 放 入 队列 。 在 离开 临界 区 时 ,给 LERH 
服务 器 发 送 一 个 消息 ， 交 回 这 个 令 牌 。 RES Oe 

如 果 等 待 进程 的 队列 不 为 空 ， 服 务 器 会 选择 
队列 中 时 间 最 早 的 项 ， 把 它 从 队列 中 删除 并 应 答 
相应 的 进程 。 被 选择 的 这 个 进程 持 有 令 牌 。 图 中 证 
给 出 了 p 的 请 求 被 加 和 已 经 包含 p 请 求 的 队列 
的 情况 。ps 离开 临界 区 ， 服 务 器 删除 ps 的 项 并 图 15-2 ”为 一 组 进程 管理 互 斥 令 牌 的 服务 器 
通过 应 答 p, 来 允许 ps 进入 临界 区 。 进 程 p, 目前 不 需要 进 人 临界 区 。 

如 果 假设 没有 故障 ， 很 容易 看 到 此 算法 满足 安全 性 和 活性 条 件 。 但 是 ， 读 者 会 发 现 此 算法 不 满足 
性 质 ME3。 

我 们 现在 来 评估 此 算法 的 性 能 。 进 入 临界 区 〈 即 使 在 当前 没有 进程 占有 它 时 ) 需要 两 个 消息 (请 
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R (request) 和 随后 的 授权 (grant) ) ， 这 样 ， 因 为 往返 时 间 而 使 请 求 进程 被 延迟 。 离 开 临 界 区 需要 发 
送 一 个 释放 (release) 消息 。 假 设 采 用 异步 消息 传递 ， 就 不 会 对 要 离开 临界 区 的 进程 造成 延迟 。 

服务 器 可 能 会 成 为 整个 系统 的 一 个 性 能 瓶颈 。 同 步 延迟 是 下 面 两 个 消息 往返 一 次 要 花费 的 时 间 : 
发 到 服务 器 的 释放 消息 和 随后 让 下 一 进程 进入 临界 区 的 授权 消息 。 

基于 环 的 算法 ”在 入 个 进程 间 安排 互 斥 而 不 需 其 他 进程 的 最 简单 的 方法 之 一 是 把 这 些 进 程 安排 在 
一 个 逻辑 环 中 。 这 样 只 要 求 每 个 进程 p; 与 环 中 下 一 个 进程 pieank 有 一 个 通信 通道 。 该 方法 的 思想 是 
通过 获得 在 进程 间 沿 着 环 单 向 (如 顺 时 针 ) 传递 的 消息 为 形式 的 令 牌 来 实现 互 斥 。 环 的 拓扑 结构 可 以 
与 计算 机 之 间 的 物理 互 连 无 关 。 

如 果 一 个 进程 在 收 到 令 牌 时 不 需要 进入 临界 区 ， 那 么 它 立 即 把 令 牌 传 给 它 的 邻居 。 需 要 令 牌 的 进 
程 将 一 直 等 待 ， 直 到 接收 到 令 牌 为 止 ， 它 会 保留 令 牌 。 要 离开 临界 区 时 ， 进 程 把 令 牌 发 送 给 它 的 邻居 。 

进程 的 布局 如 图 15-3 所 示 。 验 证 该 算法 满足 条 件 ME1 和 ME2 是 很 容易 的 ， 但 令 牌 不 必 按 发 生 在 
先 顺 序 获 得 。( 记 住 ， 进 程 可 以 交换 消息 而 不 必 理 会 令 牌 的 轮转 。) 

该 算法 会 不 断 消耗 网 络 带 宽 〈 当 一 个 进程 在 临界 区 中 时 除外 ) : 进程 沿 着 环 发 送 消息 ， 即 使 在 没 
有 进程 需要 进入 临界 区 时 也 是 这 样 。 请 求 进入 临界 区 的 进程 会 延迟 0 个 〈 这 时 它 正好 收 到 令 牌 ) BIN 
个 (这 时 它 刚 传递 了 令 牌 ) 消息 。 离 开 临 界 区 只 需要 一 个 消息 。 在 一 个 进程 离开 和 下 一 个 进程 进入 临 
界 区 之 间 的 同步 延迟 可 以 是 1 ~ 个 消息 传输 。 

使 用 组 播 和 逻辑 时 钟 的 算法 ”Ricart 和 Agrawala [1981] 开发 了 一 个 基于 组 播 的 实现 六 个 对 等 进 
程 间 互 斥 的 算法 。 该 算法 的 基本 思想 是 要 进入 临界 区 的 进程 组 播 一 个 请 求 消息 ， 并 且 只 有 在 其 他 进程 
都 回答 了 这 个 消息 时 才能 进入 。 进 程 回答 请 求 的 条 件 用 于 确保 满足 条 件 ME1 ~ ME3 。 

进程 mm，P ，…，pnw 具有 不 同 的 数字 标识 符 。 假 设 进程 互相 之 间 都 有 通信 通道 ， 且 每 个 进程 p; 保 
持 一 个 根据 14. 4 节 的 规则 LCL 和 LC2 更 新 的 Lamport 时 钟 。 请 求 进入 的 消息 形 如 <T，p; > ， 其 中 了 是 
发 送 者 的 时 间 惟 ，P: 是 发 送 者 的 标识 符 。 

每 个 进程 在 变量 state 中 记录 它 的 状态 ， 这 些 状态 包括 在 临界 区 外 (RELEASED )、 和 希望 进入 
(WANTED) 以 及 在 临界 区 内 (HELD)。 图 15-4 给 出 了 协议 。 


初始 化 : | 
state:=RELEASED; 





State:= WANTED; 
组 播 请 求 给 所 有 进程; | 请 求 处 理 在 此 被 延期 
T= RN RD: 

wen ť  “< Wait until (接收 到 的 应 答 数 = (N-D) ; 


state:=HELD; 
r. 在 p; GAJ) 接收 一 个 请 求 <7ip;> 


/ Ps if (state=HELD or (state=WANTED and (T,p,) < (T,p,))) 


else 


马上 给 Pp 应 答 ; 
Ds end if 


LL. 为 了 退出 临界 区 : 
N Ae state:=RELEASED; 


i a 对 已 入 队列 的 请 求 给 出 应 答 ; 


then 
| 将 请 求 放 入 p 队 列 ， 不 给 出 应 答 ; 




















图 15-3 ”传播 互 斥 令 牌 的 进程 环 图 15-4 Ricart 和 Agrawala 算法 


如 果 一 个 进程 请 求 进入 ， 而 其 他 进程 的 状态 都 是 RELEASED， 那 么 所 有 进程 会 立即 回答 请 求 ， 请 
求 者 将 得 以 进入 。 如 果菜 进程 状态 为 HELD， 那 么 该 进程 在 结束 对 临界 区 的 访问 前 不 会 回答 请 求 ， 因 
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此 在 这 期 间 请 求 者 不 能 得 以 进入 。 如 果 有 两 个 或 多 个 进程 同时 请 求 进入 临界 区 ， 那 么 时 间 戳 最 近 的 进 
程 将 是 第 一 个 收集 到 -1 个 应 答 的 进程 ， 它 将 被 准许 下 一 个 进入 。 如 果 请 求 具有 相等 的 Lamport 时 间 
惟 ， 那 么 请 求 将 根据 进程 的 标识 符 排序 。 注 意 ， 当 一 个 进程 请 求 进入 时 ， 它 推迟 处 理 来 自 其 他 进程 的 
请 求 ， 直 到 发 送 了 它 自己 的 请 求 并 且 记 录 了 该 请 求 的 时 间 惟 了 为 止 。 这 样 做 的 目的 是 为 了 进程 在 处 理 
请 求 时 做 出 一 致 的 决定 。 

该 算法 实现 了 安全 性 特性 ME1。 如 果 两 个 进程 疡 和 疡 (大 ) 能 同时 进入 临界 区 ， 那 么 这 两 个 进程 
必须 已 经 互相 回答 了 对 方 。 但 是 ， 因 为 <T,，p; > 对 是 全 排序 的 ， 所 以 这 是 不 可 能 的 。 请 读者 自行 证 明 
算法 满足 需求 ME2 和 ME3 。 

为 了 说 明 上 述 算法 ， 考 虑 图 15-5 所 示 的 涉及 三 个 进程 p,、p, 和 ps 的 情况 。 假 设 p, 不 打算 进入 临 
界 区 ， 而 pp 和 pa 并 发 地 请 求 进入 。 Pi KERA RE 41, P2 的 请 求 的 时 间 稚 是 34。 X p, 接 到 它们 
的 请 求 时 ， 将 立即 应 答 。 当 p 接 到 p, 的 请 求 
时 ， 它 发 现 自 己 的 请 求 有 更 早 的 时 间 锥 ， 因 41 
此 不 予 应 答 , 将 pi 搁置 。 然 而 ，p EA p 的 r i 
请 求 比 自己 的 请 求 有 更 早 的 时 间 锥 ， 因 此 立 


即 应 答 。p, 一 收 到 第 二 个 应 答 ， 便 能 进入 临 


AE 

界 区 。 当 ps 离开 临界 区 时 ， 它 将 应 答 p, 的 请 = 1 A aon 

求 ， 因 此 人 允许 p, BEA. ARS 
在 该 算法 中 ， 获 得 进入 的 许可 需要 2(W -1) 

个 消息 : NW - 1 个 消息 用 于 组 播 请 求 ， 随 后 是 bi 

N-1 PN. MRR, WOR AAG 

要 一 个 消息 ， 那 么 共 需 要 NTE. Al, 

在 带宽 消耗 方面 ， 该 算法 比 前 述 算法 更 昂贵 。 图 15-5 组 播 同步 

然而 ， 请 求 进 入 的 客户 延迟 仍 是 一 个 往返 时 间 (忽略 组 播 请 求 消息 带 来 的 延迟 ) 。 

该 算法 的 优点 是 它 的 同步 延迟 仅 是 一 个 消息 传输 时 间 。 前 两 个 算法 都 有 一 个 往返 的 同步 延迟 。 

该 算法 的 性 能 可 以 改进 。 首 先 我 们 注意 到 ， 最 近 一 次 进入 过 临界 区 且 没 有 接 到 其 他 的 进入 请 求 的 
进程 ， 仍 需 如 描述 的 那样 执行 协议 ， 即 使 它 可 以 简单 地 在 本 地 把 令 牌 重新 分 配给 自己 。 其 次 ，Ricart 
和 Agrawala 改进 了 协议 ， 使 它 在 没有 硬件 支持 组 播 时 ， 在 最 坏 〈 也 是 通常 的 ) 情况 下 需要 NN 个 消息 来 
获得 进入 许可 。 对 此 的 描述 见 Raynal [1988], 

Maekawa 投票 算法 ”Maekawa [1985] 观察 到 ， 为 了 让 一 个 进程 进入 临界 区 ， 不 必要 求 所 有 对 等 
进程 都 同意 。 只 要 任意 两 进程 使 用 的 子 集 (subset) 有 重 琶 ,进程 只 需要 从 其 对 等 进程 的 子 集 获得 进 
入 许可 即 可 ， 我 们 可 以 把 进入 临界 区 想象 成 进程 互相 选举 。 一 个 “候选 ”进程 为 进入 必须 收集 到 足够 
的 选票 。 在 两 个 投票 者 集合 的 交集 中 的 进程 ， 通 过 把 选票 只 投 给 一 个 候选 者 ， 保 证 了 安全 性 ME1， 即 
最 多 只 有 一 个 进程 可 以 进入 临界 区 。 

Maekawa 把 每 个 进程 p.(i =1，2，…，N) 关联 到 一 个 选举 集 (votingset) V, 其 中 VS |p, Pos …, Prio 
集合 的 选择 ,使 得 对 所 有 i, j =1，2，…，N， 有 : , 

e peV.。 

。 VNV, 承 四 ， 即 任意 两 个 选举 集 至 少 有 一 个 公共 成 员 。 

。 |V | =K， 即 为 公平 起 见 ， 每 个 进程 有 同样 大 小 的 选举 集 。 

。 每 个 进程 p) 包括 在 选举 集 V; 中 的 MARAH. 

Maekawa 指明 ， 最 优 解 〈 即 使 天 最 小 且 允 许 进 程 达到 互 斥 的 情况 ) 具有 天 ~ VN 且 M =K (因此 每 
个 进程 所 在 的 选举 集 数 与 每 个 集合 中 的 元 素数 相同 ) 。 计 算 最 优 集 R 并 不 简单 。 作 为 一 种 近似 ， 得 到 
使 |R | ~2 VN 的 集合 R, 的 一 个 简单 方法 是 把 进程 放 在 一 个 /Wx NSE, SES, 是 包含 的 行 和 
列 的 并 集 。 

Maekawa 算法 如 图 15-6 所 示 。 为 获得 进入 临界 区 的 许可 ， 进 程 p; 发 送 请 求 消 息 给 V 的 所 有 天 个 成 
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员 〈 包 括 自己 )。 在 收 到 所 有 天 个 应 答 消 息 前 ， 忆 不 能 进入 临界 区 。 当 VY; 中 的 进程 pj 收 到 p 的 请 求 消 (639) 


息 时 ， 它 立即 发 送 一 个 应 答 消 息 ， 除 非 它 的 状态 是 
HELD, 或 者 它 自从 它 上 次 收 到 一 个 释放 消息 以 来 已 
经 给 了 应 答 (“已 投票 ”)。 这 时 ， 它 把 请 求 消息 加 
人 队列 〈 按 到 达 时 间 顺 序 ) ,但 现在 不 回答 。 当 一 
个 进程 收 到 一 个 释放 消息 时 ， 它 从 请 求 队列 中 删除 
队 头 《如 果 队 列 不 空 )， 并 发 送 一 个 应 答 消 息 (一 
个 “投票 " ) 响应 该 释放 消息 。 为 了 离开 临界 区 ，p， 
发 送 释放 消息 给 V 中 的 所 有 天 个 成 员 (包括 自己 )。 

该 算法 实现 了 安全 性 ME1。 如 果 两 个 进程 p, 和 
p; 能 同时 进入 临界 区 ， 那么 VNV Ap 中 的 进程 必须 
已 经 对 它们 两 个 投票 。 但 该 算法 规定 一 个 进程 在 连 
续 收 到 的 释放 消息 之 间 最 多 投 一 个 选票 ， 所 以 上 述 
情况 是 不 可 能 的 。 

遗憾 的 是 ， 该 算法 易于 死 锁 。 考 虑 三 个 进程 p 
ps、 Pi, HV, = [Pis Pits V, = [Pas Pl, V, = 
{fp;， Pi}。 如 果 三 个 进程 并 发 地 请 求 进入 临界 区 ， 
那么 可 能 p, WAT BORER p, p WET AO 
延缓 p,，p; 应 答 了 自己 但 延缓 p, 。 每 个 进程 收 到 两 
个 应 答 中 的 一 个 ， 因 此 都 不 能 继续 。 

可 以 修改 算法 [Saunder 1987] 使 其 成 为 无 死 锁 
的 。 在 修改 后 的 协议 中 ， 进 程 按 发 生 在 先 顺 序 对 待 
应 答 的 请 求 排 队 ， 因 此 也 满足 需求 ME3。 

该 算法 的 带宽 使 用 是 每 次 进入 临界 区 需 2 VN 个 
消息 ， 每 次 退出 需要 YN 个 消息 (假设 没有 硬件 组 播 
故障 ) 。 如 果 N > 4，3 YN 的 结果 要 优 于 Ricart 和 
Agrawala 算法 的 2(N-1) 的 结果 。 客 户 延 迟 与 
Ricart 和 Agrawala 算法 一 样 ， 但 同步 延迟 更 差 一 些 ， 
因为 是 一 个 往返 时 间 ， 而 不 是 单个 消息 的 传输 时 间 。 

容错 在 容错 方面 ,评估 以 上 算法 的 要 点 是 : 

。 当 消 息 丢 失 时 会 发 生 什么 ? 

。 当 进 程 骨 演 时 会 发 生 什么 ? 








初始 化 : 
state:=RELEASED; 
voted:=FALSE; 


Zi 为 了 进入 临界 区 ; 
state:= WANTED; 
将 请 求 组 播 给 万 中 的 所 有 进程 ; 
Wait until ZAI BOVE BK) ; 
state:-=HELD; 

Zep, GAP) 接收 来 自 2 的 请 求 : 
if (state=HELD or voted=TRUE) 


then 
将 来 自 pb 的 请 求 放 入 队列 ， 不 予 应 管 ; 


else 
将 应 管 发 给 p; 
voted:=TRUE; 


end if 
2 为 了 退出 临界 区 : 
Siate:=RELEASED; 
将 释放 组 播 给 已 中 的 所 有 进程 ; 
在 p, GAP) 接收 到 来 自 bp 的 释放 : 
if GPR BAD FES? 
then 
删除 队列 头 一 例如 ps; 
将 应 答 发 给 pi 
voted:=TRUE; 


else 
voted:=FALSE; 


end if 








图 15-6 Maekawa 算法 


如 果 通 道 不 可 靠 , 我 们 介绍 的 算法 都 不 能 容忍 消息 丢失 。 基 于 环 的 算法 不 能 容忍 任何 单个 进程 的 
崩溃 故障 。Maekawa 算法 可 以 容忍 一 些 进 程 的 崩溃 故障 :如果 一 个 崩溃 进程 不 在 所 需 的 投票 集中 ， 那 
么 它 的 故障 不 会 影响 其 他 进程 。 中 央 服 务 器 算法 可 以 容忍 一 个 既 不 持 有 也 不 请 求 令 牌 的 客户 进程 的 出 
溃 故 障 。 可 以 通过 隐 式 地 给 所 有 请 求 授权 来 修改 我 们 描述 的 Ricart 和 Agrawala 算法 ， 使 得 它 容忍 进程 
的 朋 溃 故障 。 

请 读者 考虑 ， 假 设 存在 可 靠 的 故障 检测 器 ， 如 何 修改 算法 使 之 能 够 容错 。 即 使 有 一 个 可 靠 的 故障 
检测 器 ， 也 需要 注意 允许 在 任何 点 出 故障 〈 包 括 在 恢复 过 程 期 间 ) 并 在 检测 到 故障 以 后 重 梅 进程 的 状 
态 。 例 如 ， 在 中 央 服 务 器 算法 中 ， 如 果 服 务 器 发 生 故 障 ， 那 么 无 论 它 持 有 令 牌 还 是 客户 进程 中 的 一 个 
持 有 令 牌 ， 都 必须 恢复 它们 。 

在 15.5 节 我 们 将 研究 在 有 故障 时 进程 如 何 协调 它们 的 动作 。 


15.3 选举 
选择 一 个 唯一 的 进程 来 扮演 特定 角色 的 算法 称 为 选举 算法 (election algorithm) 。 例 如 ， 在 我 们 的 
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“中 央 服 务 器 ” 互 斥 算法 的 一 个 变种 中 ,，“ 服 务 器 ”是 从 需要 使 用 临界 区 的 进程 p;:，(i=1, 2, =, N) 
中 选择 的 。 这 就 需要 一 个 选举 算法 来 选择 一 个 进程 来 扮演 服务 器 的 角色 。 基 本 要 求 是 所 有 进程 都 同意 
这 个 选择 。 然 后 ， 如 果 担 任 服务 器 角色 的 进程 不 想 再 担任 此 角色 ， 那 么 需要 再 进行 一 次 选举 来 选择 替 
代 者 。 

如 果 一 个 进程 采取 行动 启动 了 选举 算法 的 一 次 运行 ， 则 称 该 进程 召集 选举 (call the election), — 
个 进程 每 次 最 多 召集 一 次 选举 ,但 原则 上 N 个 进程 可 以 并 发 召集 六 次 选举 。 在 任何 时 间 点 ， 进 程 疡 可 
以 是 一 个 参与 者 〈participant) 意 指 它 参 加 选举 算法 的 某 次 运行 ， 也 可 以 是 非 参 与 者 〈nonr partici- 
pant) 一 一 意 指 它 当 前 没有 参加 任何 选举 。 

一 个 重要 的 要 求 是 对 当选 进程 的 选择 必须 唯一 ， 即 使 若干 个 进程 并 发 地 召集 选举 。 例 如 ， 两 个 进 
程 可 以 独立 判定 一 个 协调 进程 已 经 失败 ， 并 且 都 召集 选举 。 

不 失 一 般 性 ,我 们 要 求 选择 具有 最 大 标识 符 的 进程 为 当选 进程 。“ 标 识 符 ”可 以 是 任何 有 用 的 值 ， 
员 要 标识 符 唯一 且 可 按 全 序 排序 即 可 。 例 如 ， 通 过 用 <1/load，i > 作为 进程 的 标识 符 (其 中 load >0 
且 进 程 索引 i 用 于 对 负载 相同 的 标识 符 排序 ) ， 我 们 可 以 选举 出 具有 最 低 计算 负载 的 进程 。. 

每 个 进程 p,(i=1，2,…，N) 有 一 个 变量 efected;， 用 于 包含 当选 进程 的 标识 符 。 当 进程 第 一 次 成 
为 一 次 选举 的 参与 者 时 ， 它 把 变量 值 置 为 特殊 值 “ 上 ”， 表 示 该 值 还 没有 定义 。 

我 们 的 要 求 是 ， 在 算法 的 任何 一 次 运行 期 间 ， 满 足 : 

El; (安全 性 ) ”参与 的 进程 p, 有 elected; =L, R elected =P, KP P 是 在 运行 结束 时 具有 最 大 标 
识 符 的 非 崩溃 进程 。 

了 2:《〈 活 性 ) 所 有 进程 p, 都 参与 并 且 最 终 或 者 置 elected; 关 L, REHE p: HER. 

注意 ， 可 能 有 还 不 是 参与 者 的 进程 pp ， 它 在 elected, 中 记录 着 上 次 当选 进程 的 标识 符 。 

我 们 通过 使 用 的 总 的 网 络 带宽 〈 与 发 送 消息 的 总 数 成 比例 ) 和 算法 的 回转 时 间 (从 启动 算法 到 终 
止 算法 之 间 的 串 行 消息 传输 的 次 数 ) 来 衡量 一 个 选举 算法 的 性 能 。 

基于 环 的 选举 算法 ”我 们 给 出 Chang 和 Roberts [1979] 的 算法 ,该 算法 适合 按 逻 辑 环 排列 的 一 组 
进程 。 每 个 进程 p, 有 一 个 到 下 一 进程 pui,1)ywoan 的 通信 通道 ， 所 有 消息 顺 时 针 沿 着 环 发 送 。 我 们 假设 没 
有 故障 发 生 ， 并 且 系 统 是 异步 的 。 该 算法 的 目标 是 选举 一 个 叫做 协调 者 (coordinator) 的 进程 ， 它 是 具 
有 最 大 标识 符 的 进程 。 

最 初 ， 每 个 进程 被 标记 为 选举 中 的 一 个 非 参与 者 。 任 何 进 程 可 以 开始 一 次 选举 。 它 把 自己 标记 为 
一 个 参与 者 ， 然 后 把 自己 的 标识 符 放 到 一 个 选举 消息 里 ， 并 把 消息 顺 时 针 发 送 给 它 的 邻居 。 

当 一 个 进程 收 到 一 个 选举 消息 时 ， 它 比较 消息 里 的 标识 符 和 它 自己 的 标识 符 。 如 果 到 达 的 标识 符 
较 大 ， 它 把 消息 转发 给 它 的 邻居 。 如 果 到 达 的 标识 符 较 小 ， 且 接收 进程 不 是 一 个 参与 考 ， 它 就 把 消息 
里 的 标识 符 赫 换 为 自己 的 ， 并 转发 消息 ; 如 果 它 已 经 是 一 个 参与 者 ， 它 就 不 转发 消息 。 任 何 情况 下 ， 
当 转 发 一 个 选举 消息 时 ， 进 程 把 自己 标记 为 一 个 参与 者 。 

然而 ， 如 果 收 到 的 标识 符 是 接收 者 自己 的 ， 这 个 进程 的 标识 符 一 定 最 大 ， 该 进程 就 成 为 协调 者 。 
协调 者 再 次 把 自己 标记 为 非 参 与 者 并 向 它 的 邻居 发 送 一 个 当选 消息 ， 宣 布 它 当选 并 将 它 的 身份 放 人 消 
息 中 。 

当 进 程 p, 收 到 一 个 当选 消息 时 ， 它 把 自己 标记 为 非 参 与 者 ， 置 变量 elected, 为 消息 里 的 标识 符 ， 并 
且 把 消息 转发 到 它 的 邻居 ， 除 非 它 是 新 的 协调 者 。 

容易 证 明 该 算法 满足 条 件 El 。 因 为 一 个 进程 在 发 送 当选 消息 前 必须 收 到 自己 的 标识 符 ， 所 以 所 有 
标识 符 都 被 比较 了 。 对 任意 两 个 进程 ， 标 识 符 较 大 的 进程 不 会 传递 另 一 进程 的 标识 符 。 因 此 不 可 能 两 
者 都 收 到 它们 自己 的 标识 符 。 

根据 算法 保证 环 的 遍历 〈 没 有 故障 ) 立即 可 证 明 条 件 E2。 注 意 ， 非 参与 者 和 参与 者 状态 的 使 用 方 
式 ， 这 种 使 用 方式 使 另 一 进程 同时 开始 进行 的 一 次 选举 所 引发 的 消息 被 尽 可 能 地 压制 ， 并 且 总 在 “ 获 
胜 的 ”选举 结果 宣布 之 前 进行 。 

如 果 只 有 一 个 进程 户 动 一 次 选举 ， 最 坏 的 情况 是 它 的 首 时 针 方向 的 邻居 其 有 最 大 的 标识 符 。 这 时 ， 
到 达 该 邻居 需要 W -1 个 消息 ， 并 且 还 需要 NN 个 消息 再 完成 一 个 回路 ,才能 宣布 它 的 当选 。 接 着 当选 
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消息 被 发 送 N 次， 共计 3N-1 个 消息 。 回 转 时 间 也 是 3N - 1， 因 为 这 些 消息 都 是 顺序 发 送 的 。 
进行 中 的 一 次 基于 环 的 选举 的 例子 如 图 15-7 所 示 。 

选举 消息 当前 包含 24， 但 进程 28 会 在 消息 到 达 时 ， 把 a 17 

它 替 换 为 自己 的 标识 符 。 i bs 
虽然 基于 环 的 算法 有 助 于 理解 一 般 选 举 算法 的 性 质 ， 

但 是 它 不 容错 的 事实 限制 了 它 的 实用 价值 。 然 而 ， 通 过 24 

利用 可 靠 的 故障 检测 器 ， 在 一 个 进程 崩溃 时 重 构 环 原则 

上 是 可 能 的 。 | 
霸道 算法 ”霸道 算法 [ Garcia- Molina 1982] 虽然 假 \ 

定 进程 间 消 息 发 送 是 可 靠 的 ， 但 它 允 许 在 选举 期 间 进 程 

崩溃 。 与 基于 环 的 算法 不 同 ， 该 算法 假定 系统 是 同步 的 : 5 JL 

它 使 用 超时 来 检测 进程 故障 。 另 一 个 区 别 是 ， 基 于 环 的 hS Cem 

算法 假定 进程 相互 之 间 具 有 最 小 的 先 验 知识 : 每 个 进程 Pe Pe 

只 知道 如 何 与 邻居 通信 ， 且 没有 进程 知道 其 他 进程 的 标 te a ih ny 

识 符 。 而 霸道 算法 假定 每 个 进程 知道 哪些 进程 有 更 大 的 参与 的 进程 用 深 色 显 示 。 

标识 符 ， 并 且 可 以 和 所 有 这 些 进 程 通信 。 图 15-7 ”进行 中 的 一 次 基于 环 的 选举 

在 该 算法 中 有 3 种 类 型 的 消息 。 选 举 消息 用 于 宣布 
选举 ; 应 答 消息 用 于 回复 选举 消息 ; 协调 者 消息 用 于 宣布 当选 进程 的 身份 一 -新 的 “协调 者 ”。 一 个 
进程 通过 超时 发 现 协调 者 已 经 出 现 故障 ， 并 开始 一 次 选举 。 几 个 进程 可 能 同时 观察 到 此 现象。 

因为 系统 是 同步 的 ， 所 以 我 们 可 以 构造 一 个 可 靠 的 故障 检测 器 。 最 大 消息 传输 延迟 为 7 ， 最 大 
消息 处 理 延迟 为 ,ss。 因 此 ， 我 们 可 以 计算 时 间 了 =27,。。+ Ts。， 它 是 从 发 送 一 个 消息 给 另 一 进程 到 
收 到 回复 的 总 时 间 的 上 界 。 如 果 在 了 时 间 内 没有 收 到 应 答 ， 本 地 故障 检测 器 可 以 报告 请 求 的 预期 接收 
者 已 经 出 现 故障 。 

知道 自己 有 最 大 标识 符 的 进程 可 以 通过 发 送 协调 者 消息 给 所 有 具有 较 小 标识 符 的 进程 ， 来 选举 自 
己 为 协调 者 。 另 一 方面 ， 有 较 小 标识 符 的 进程 通过 发 送 选 举 消息 给 那些 有 较 大 标识 符 的 进程 来 开始 一 
次 选举 ， 并 等 待 应 答 消息 。 如 果 在 时 间 了 内 没有 消息 到 达 ， 该 进程 便 认 为 自己 是 协调 者 ， 并 发 送 协调 
者 消息 给 所 有 有 较 小 标识 符 的 进程 来 宣布 这 一 结果 。 否 则 ， 该 进程 再 等 待 时 间 7' 以 接收 从 新 的 协调 者 
发 来 的 消息 。 如 果 没 有 消息 到 达 ， 它 开始 另 一 次 选举 。 

如 果 进 程 p; 收 到 一 个 协调 者 消息 ， 它 把 它 的 变量 elected, 置 为 消息 中 包含 的 协调 者 的 标识 符 ， 并 把 
这 个 进程 作为 协调 者 。 

如 果 一 个 进程 收 到 一 个 选举 消息 ， 它 回 送 一 个 应 答 消 息 并 开始 另 一 次 选举 一 除非 它 已 经 开始 了 
一 次 选举 。 

当 启动 一 个 进程 来 兰 换 一 个 崩溃 进程 时 ， 它 开始 一 次 选举 。 如 果 它 有 最 大 的 进程 标识 符 ， 它 会 决 
定 自己 是 协调 者 ， 并 向 其 他 进程 宣布 。 因 此 即使 当前 协调 者 正在 起 作用 ， 它 也 会 成 为 协调 者 。 正 是 因 
为 这 个 原因 ， 该 算法 被 称 为 “霸道 ”算法 。 

算法 的 运行 过 程 如 图 15-8 所 示 。 有 4 个 进程 p, ~ps。 进 程 p 检测 到 协调 者 ps 出 现 故 障 ， 并 宣布 进 
行 选举 (图 15-8 中 阶段 1) 。 当 收 到 户 发 来 的 选举 消息 时 ， 进 程 p, Ap, 发 送 应 答 消息 给 p, ， 并 开始 它 
们 自己 的 选举 ; p 发 送 一 个 应 答 消 息 给 p,， 但 ps 没有 从 出 现 故障 的 进程 p 收 到 应 答 消息 〈 阶 段 2) 。 
因此 它 决定 自己 是 协调 者 。 但 在 它 发 出 协调 者 消息 之 前 ， 它 也 出 现 故障 阶段 3)。 当 p, 的 超时 周期 
7 过 去 后 (我 们 假设 这 发 生 在 p 的 超时 周期 过 去 之 前 ) ， 它 得 出 没有 协调 者 消息 的 结论 并 开始 另 一 次 
Bek, BA, p, 被 选 为 协调 者 〈 阶 段 4) 。 


] 








380 + 第 15 章 协调 和 协定 





选举 
SS G 
阶段 1 ”选举 回答 二 x 
ae 选举 
a a N g 
阶段 2 选举 回答 yt 
Pi is Ds 
超时 
pm | 
Pı P2 P3 Ps 
最 后 boscosa 
4 协调 者 
po SS 8 
re KK 
pi P2 P3 Pi 


最 初 是 pi 出 现 故 障 ， 然 后 是 P; 出 现 故障 ， 在 这 种 情况 下 ， 选 举 P 为 协调 者 。 
图 15-8 ”霸道 算法 


依据 可 靠 消 息 传输 的 假定 ， 该 算法 显然 满足 活性 条 件 到 。 而 且 如 果 没 有 进程 被 替换 ， 算 法 满足 条 
件 下 。 两 个 进程 不 可 能 都 决定 它们 是 协调 者 ， 因 为 有 较 小 标识 符 的 进程 会 发 现 另 一 进程 的 存在 并 服从 
于 它 。 

但 是 ， 如 果 般 省 的 进程 被 蔡 换 为 具有 相同 标识 符 的 进程 ， 那 么 该 算法 不 能 保证 满足 安全 性 条 件 
E1。 正 在 另 一 个 进程 ( 它 已 经 检测 到 进程 p HR) 已 经 决定 它 有 最 大 的 标识 符 时 ， 替 换 p 的 进程 可 能 
决定 它 有 最 大 的 标识 符 。 两 个 进程 可 能 同时 宣布 它们 自己 为 协调 者 。 遗 憾 的 是 ， 由 于 消息 的 传输 顺序 
没有 保证 ， 这 些 消息 的 接收 者 对 于 谁 是 协调 者 可 能 得 出 不 同 的 结论 。 

此 外 ， 如 果 假 定 的 超时 值 被 证 明 是 不 准确 的 ， 即 如 果 进 程 的 故障 检测 器 是 不 可 靠 的 ， 那 么 条 件 EL 
也 可 能 会 不 成 立 。 

考虑 刚 给 出 的 例子 ， 假 设 ps 没有 骨 溃 但 运行 异乎 寻常 得 慢 〈 即 系统 同步 的 假定 是 不 正确 的 ) ， 或 
者 ps 已 经 崩溃 但 被 替换 。 正 在 户 发 送 它 的 协调 者 消 息 时 ，p; 〈 或 替换 者 ) 也 做 着 同样 的 事情 。p, 在 
发 送 自己 的 协调 者 消息 后 收 到 ps 的 消息 ， 因 此 置 elected, =ps。 由 于 消息 传输 延迟 不 同 ，p, 在 收 到 ps 的 
协调 者 消息 后 收 到 p 的 协调 者 消息 ， 因 此 最 终 elected, =p,。 于 是 ， 违 反 了 条 件 E1。 

关于 算法 的 性 能 ， 最 好 情况 是 具有 次 大 标识 符 的 进程 发 现 了 协调 者 的 故障 。 于 是 它 可 以 立即 选举 
自己 并 发 送 入 -2 个 协调 者 消息 。 回 转 时 间 是 一 个 消息 。 在 最 坏 情况 下 ， 霸 道 算 法 需要 O(N) 个 消 
息 ， 即 具有 最 小 标识 符 的 进程 首先 检测 到 协调 者 的 故障 。 然 后 NN -1 个 进程 一 起 开始 选举 ， 每 个 进程 都 
发 送 消息 到 有 较 大 标识 符 的 进程 。 


15.4 组 通信 中 的 协调 与 协定 

本 章 研 究 关 于 组 通信 的 关键 的 协调 和 协定 问题 ， 即 怎样 获得 所 期 望 的 可 靠 度 和 所 有 组 成 员 之 间 的 
顺序 特性 。 第 6 章 描述 了 组 通信 ， 它 是 间接 通信 技术 〈 据 此 进程 可 以 发 送 消息 给 一 组 进程 ) 的 一 个 示 
例 。 一 条 消息 可 以 根据 某 种 在 可 靠 性 和 顺序 策略 方面 的 保证 来 传递 给 组 内 的 所 有 成 员 。 我 们 特别 倾向 
于 基于 有 效 性 、 完 整 性 和 协定 的 可 靠 性 ， 以 及 基于 FIFO 排序 (FIFO ordering) ， 因 果 排 序 (causal orde- 
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ring) 和 全 排序 (total ordering) 的 顺序 。 

本 章 研 究 成 员 已 知 的 进程 组 的 组 播 通 信 。 第 18 章 将 把 研究 扩展 到 成 熟 的 组 通信 ， 包 括 对 动态 变化 
组 的 管理 。 

系统 模型 ”系统 包含 一 组 进程 ， 它 们 可 以 通过 一 对 一 的 通道 可 靠 地 进行 通信 。 如 前 所 述 ， 进 程 在 
衣 省 时 才 出 现 故 障 。 

进程 是 组 的 成 员 ， 它 们 是 使 用 组 播 操作 发 送 的 消息 的 目的 地 。 通 常 ， 进 程 可 以 同时 是 几 个 组 的 成 
员 是 有 用 的 ， 例 如 , .进程 通过 加 入 几 个 组 ， 能 接收 几 个 来 源 的 信息 。 但 是 ， 为 了 简化 顺序 性 质 的 讨论 ， 
我 们 有 时 限制 进程 一 次 最 多 是 一 个 组 的 成 员 。 

操作 multicast(g, m) 发 送 消息 m 给 进程 组 g 的 所 有 成 员 。 相 应 地 ， 操 作 deliver( m) 传递 由 组 播 
发 送 的 消息 到 调用 进程 。 我 们 使 用 术语 deliver 而 不 是 receive， 以 阐明 组 播 消息 被 进程 结 点 收 到 后 ， 并 
不 总 是 被 提交 到 进程 内 部 的 应 用 层 。 在 随后 讨论 组 播 传递 语义 时 对 此 会 进行 解释 。 

每 个 消息 m 携带 发 送 它 的 进程 sender( m) 的 唯一 标识 符 和 唯一 目的 组 标识 符 group (m) 。 我 们 假定 
进程 不 会 谎报 消息 的 源 和 目的 地 。 

有 一 些 算法 假定 组 是 封闭 的 〈 在 第 6 章 有 定义 ) 。 


15.4.1 BAAR 


拥有 一 个 可 自由 使 用 的 基本 组 播 原 语 是 有 用 的 ， 与 PARRA, UE, RS ERO 
演 ， 一 个 正确 的 进程 最 终 会 传递 消息 。 我 们 把 这 个 原 语 称 为 B- multicast， 而 与 它 对 应 的 基本 传递 原 语 
是 B-deliver。 我 们 允许 进程 属于 几 个 组 ， 而 每 个 消息 发 往 某 些 特定 组 。 

实现 B-multicast 的 一 个 简单 方法 是 使 用 一 个 可 靠 的 一 对 一 send 操作 ， 如 下 : 

B-multicast(g, m): 对 每 个 进程 peg, snd(p, m), 

进程 p receive (m) Wf: p 执行 B- deliver(m)。 

为 了 减少 传递 消息 的 总 时 间 ， 实 现 可 以 利用 线程 来 并 发 执行 send 操作 。 遗 憾 的 是 ， 如 果 进 程 数 很 
大 ， 这 样 的 实现 会 不 可 靠 ， 很 可 能 出 现 一 种 叫做 确认 爆炸 (ack-implosion) 的 现象 。 作 为 可 靠 send 操 
作 的 一 部 分 发 送 的 确认 很 可 能 从 许多 进程 几乎 同时 到 达 。 进 行 组 播 的 进程 的 缓冲 区 会 很 快 被 填 满 ， 因 
此 很 可 能 丢掉 确认 消息 。 于 是 进程 会 重新 发 送 消息 ， 导 致 更 多 的 确认 并 浪费 更 多 的 网 络 带 宽 。 更 为 实 
用 的 基本 组 播 服务 可 以 使 用 了 P 组 播 来 构建 ， 请 读者 在 练习 15. 10 中 自行 完成 这 一 服务 。 


15.4.2 “可靠 组 播 


第 6 章 讨 论 了 基于 有 效 性 、 完 整 性 和 协定 的 可 靠 组 播 。 本 节 以 这 个 非 正式 的 讨论 为 基础 ， 给 出 一 
个 更 为 完整 的 定义 。 

按照 Hadzilacos 和 Toueg [1994] Chandra 和 Toueg [1996] 的 研究 成 果 ， 我 们 现在 定义 可 靠 组 播 
(reliable multicast) 以 及 相应 的 操作 R- multicast 和 R-deliver。 在 可 靠 组 播发 送 中 ， 显 然 非常 需要 类 似 完 
整 性 和 有 效 性 的 性 质 。 但 我 们 还 要 增加 另 一 个 性 质 ， 要 求 如 果 组 中 任何 一 个 进程 收 到 一 个 消息 ， 那 么 
组 中 所 有 正确 的 进程 都 必须 收 到 这 个 消息 。 这 不 是 基于 可 靠 的 一 对 一 发 送 操作 的 B-multicast 算法 的 性 
质 ， 认 识 到 这 一 点 是 重要 的 。 在 B- multicast 进行 时 ， 发 送 进 程 可 能 在 任何 一 点 出 现 故 障 ， 因 此 一 些 进 
程 可 能 传递 消息 而 另 一 些 进程 则 不 传递 消息 。 

一 个 可 靠 组 播 是 满足 以 下 性 质 的 组 播 ， 我 们 先 给 出 这 些 性 质 ， 再 对 这 些 性 质 进 行 解释 。 

完整 性 〈integrity) : 一 个 正确 的 进程 传递 一 个 消息 m 至 多 一 次 。 而 且 , pe group (m) Hm H 
sender (m) 提供 给 一 个 组 播 操作 。( 与 一 对 一 通信 一 样 ， 消 息 总 可 以 通过 一 个 与 发 送 者 相关 的 序号 来 
区 别 。) 

Ae (validity): 如 果 一 个 正确 的 进程 组 播 消 息 m， 那 么 它 终 将 传递 m, 

HR (agreement): 如 果 一 个 正确 的 进程 传递 消息 m, IAE group(m) 中 的 其 他 正确 的 进程 终 将 
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传递 m。 

完整 性 与 可 靠 的 一 对 一 通信 中 的 完整 性 类 似 。 有 效 性 保证 了 发 送 进程 的 活性 。 这 看 上 去 可 能 是 一 
个 与 众 不 同 的 性 质 ， 因 为 它 是 不 对 称 的 《〈 它 只 提 到 某 个 进程 ) 。 但 是 注意 ， 有 效 性 和 协定 一 起 得 到 一 
个 完整 的 活性 要 求 : 如 果 一 个 进程 (发 送 者 ) 最 终 传递 了 一 个 消息 首 ， 那 么 ， 因 为 正确 的 进程 在 它们 
传递 的 消息 上 是 一 致 的 ， 可 知 m 终 将 被 传递 到 组 中 所 有 正确 的 成 员 。 

按照 自传 递 来 表达 有 效 性 条 件 的 优点 是 简单 。 我 们 需要 的 是 消息 最 终 被 组 中 的 某 个 正确 的 成 员 
传递 。 

协定 条 件 与 原子 性 相关 〈 即 “都 有 或 都 没有 ”的 性 质 ) ， 原 子 性 用 于 对 组 的 消息 传递 。 如 果 一 个 
组 播 消息 的 进程 在 传递 消息 之 前 就 崩溃 了 ， 则 这 个 消息 有 可 能 不 被 传递 到 组 中 的 任何 进程 。 但 如 果 消 
息 被 传递 到 某 个 正确 的 进程 ， 则 其 他 所 有 正确 的 进程 都 会 传递 它 。 文 献 中 的 许多 文章 用 术语 “原子 
的 ”来 包括 一 个 全 排序 条 件 ， 我 们 稍 后 给 出 定义 。 

用 B- multicast SHA HAS ”图 15-9 给 出 了 一 个 使 用 原 语 R-multicast 和 R-deliver 的 可 靠 组 播 算 
法 ， 它 允许 进程 同时 属于 几 个 封闭 的 组 。 为 了 R-multicast 一 个 消息 ， 一 个 进程 将 消息 B- multicast 到 目 
的 组 中 的 进程 (包括 它 自己 )。 当 消息 被 B- deliver 时 ， 接 收 者 依次 B- multicast 消息 到 组 中 〈 如 果 它 不 
是 最 初 的 发 送 进程 ) ， 然 后 R-deliver 消息 。 因 为 消息 到 达 的 次 数 可 能 多 于 一 次 ， 所 以 还 要 检测 消息 的 
副本 且 不 传递 它们 。 

这 个 算法 显然 满足 有 效 性 ， 因 为 一 个 正确 的 进程 终 将 B- deliver 消息 到 它 自己 。 根 据 B- multicast 中 
的 通信 通道 的 完整 性 ， 算 法 也 满足 完整 性 。 

每 一 个 正确 的 进程 在 B- deliver 消息 后 都 B-multicast 该 消息 到 其 他 进程 这 一 事实 可 以 说 明 该 算法 遵 
循 协定 。 如 果 一 个 正确 的 进程 没有 R- deliver 消息 ， 这 只 能 是 因为 它 从 来 没有 B-deliver 此 消息 ， 而 这 又 
只 能 是 因为 没有 其 他 正确 的 进程 B- deliver 此 消息 。 因 此 ， 没 有 进程 会 R- deliver 此 消息 。 

我 们 描述 的 这 个 可 靠 组 播 算法 在 异步 系统 中 是 正确 的 ， 因 为 我 们 没 对 时 间 进 行 假设 。 但 是 ， 该 算 
法 从 实用 角度 来 说 是 低 效 的 。 每 个 消息 被 发 送 到 每 个 进程 | | 次 。 

AIP 组 播 实现 可 靠 组 播 ”R- multicast 的 另 一 种 实现 是 将 IP AR. VK ( 即 确认 附加 在 其 
他 消息 上 ) 和 否定 确认 结合 使 用 。 这 个 R-multicast 协议 基于 下 述 观察 ， 即 耳 组 播 通信 通常 是 成 功 的 。 
在 该 协议 中 ， 进 程 不 发 送 单独 的 确认 消息 ， 而 是 在 发 送 给 组 中 的 消息 中 撒 带 确 认 。 只 有 当 进 程 检测 到 
它们 漏 过 一 个 消息 时 ， 它 们 才 发 送 一 个 单独 的 应 答 消 息 。 指 出 一 个 预期 的 消息 没有 到 达 的 应 答 被 叫做 
否定 确认 。 

该 描述 假定 组 是 封闭 的 。 每 个 进程 p 为 它 属于 的 组 g 维持 一 个 序号 S 。 序 号 最 初 为 零 。 每 个 进程 
还 记录 Rt, KRAVE q 并 且 发 送 到 组 g 的 最 近 消息 的 序号 。 

p 要 R-multicast 一 个 消息 到 组 g I, CEMEL S. CEEE ERMA, A <q，R > 。 
这 个 确认 给 出 了 一 个 序号 ， 即 自从 发 送 进 程 g 上 一 次 组 播 消 息 后 , p 最 近 传递 的 来 自 进 程 g 并 且 发 往 该 
组 g 的 消息 的 序号 。 然 后 ， 组 播 进 程 p 把 消息 连同 它 捕 带 的 序号 和 确认 一 起 P 组 播 到 g， HAS, 
加 1。 

在 组 播 消 息 中 撒 带 的 值 使 接收 者 了 解 到 它们 还 没有 接收 到 的 消息 。 当 且 仅 当 5S = 局 + 1， 一 个 进程 
R- deliver 一 个 来 自 p 并 发 往 g 且 序 号 为 5 的 消息 ,在 传递 后 立即 把 已 加 1。 如 果 一 个 到 达 的 消息 有 5S 
Re， 那么 r 已 经 传递 了 它 ， 所 以 丢弃 该 消息 。 如 果 5 > 局 +1, 或 对 任意 封闭 的 确认 <g,， R>AR>R, 
说 明 r 已 经 漏 了 一 个 或 多 个 消息 〈 在 第 一 种 情况 下 ,很 可 能 该 消息 已 被 丢弃 )。 它 把 满足 S$>B +1 的 
消息 保留 在 一 个 保留 队列 中 (参见 图 15-10) ， 这 种 队列 常用 于 提供 消息 传递 保证 。 它 通过 发 送 否定 确 
认 来 请 求 丢失 的 消息 。 它 或 者 发 送 请 求 到 那个 收 到 遗漏 消息 信息 的 进程 9 (这 个 进程 收 到 一 个 确认 < 
q, R>, R 不 小 于 所 要 求 的 序号 ) 或 发 到 最 初 的 发 送 进 程 。 

保留 队列 并 不 是 可 靠 性 必需 的 ， 但 它 简 化 了 协议 ， 使 我 们 能 使 用 序号 来 代表 已 传递 的 消息 集 。 它 
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也 提供 了 传递 顺序 保证 ( 见 15.4.3 节 )。 





初始 化 : 
Received:=(}; 
进程 p 为 了 将 R-multicast 消 息 m 发 给 组 g: 
B-multicast (gm) ; /PEg 被 作为 目的 地 包括 在 内 
在 进程 9 执行 B-deliver (m) 时 ， 其 中 g=group (m) 
if (m £ Received) 
then 





Received:=Received\U {m} 


if (gp) then B-multicast (g,m) ;end if mek 
R-deliver m; 


end if 到 达 的 消息 一 














Aj 15-9 可 靠 组 播 算法 图 15-10 用 于 到 达 的 组 播 消息 的 保留 队列 


通过 检测 副本 和 下 组 播 性 质 (使 用 校 验 和 来 除去 损坏 的 消息 ) 可 以 得 到 完整 性 。 有 效 性 仅 当中 
组 播 具 有 该 性 质 时 成 立 。 当 一 致 起 见 ， 我 们 首先 要 求 进程 总 可 以 检测 漏 掉 的 消息 ， 这 又 意味 着 进程 会 
收 到 又 一 个 消息 ， 使 它 能 够 检测 到 遗漏 。 因 此 ， 只 在 假定 每 个 进程 都 无 限 组 播 消息 的 情况 下 ， 这 个 协 
议 具 有 有 效 性 。 其 次 ， 对 任何 消息 ， 只 要 保证 一 个 没有 收 到 该 消息 而 又 需要 它 的 进程 能 够 得 到 它 的 一 
个 副本 ， 就 能 保证 一 致 性 成 立 ， 因 此 我 们 假定 进程 无 限 地 保留 它们 已 传递 消息 的 副本 。 

我 们 为 保证 有 效 性 和 协定 所 作 的 假设 都 是 不 实用 的 〈 人 参见 练习 15. 15) 。 但 是 ， 在 我 们 所 讲述 的 协 
议 所 派生 出 的 协议 中 ,协定 已 经 被 解决 了 ;Psync 协议 [Peterson et al. 1989 ] Trans 协议 [ Melliar- 
Smith et al. 1990) 和 可 伸缩 的 可 靠 组 播 协 议 [Floyd et al. 1997 ] 。Psyne 和 Trans 协议 还 提供 传递 顺序 
保证 。 

统一 性 质 上 面 给 出 的 协定 定义 只 提 到 正确 进程 的 行为 ， 即 进程 从 不 崩溃 。 请 考虑 如 果 一 个 进程 
不 是 正确 的 ， 并 且 在 R-deliver 一 个 消息 后 崩溃 ， 如 图 15-10 的 算法 会 发 生 什 么 。 由 于 任何 R- deliver 消 
息 的 进程 必 先 B-multicast 它 ， 可 知 所 有 正确 的 进程 最 终 仍 会 传递 此 消息 。 

无 论 进程 是 否 正确 都 成 立 的 性 质 称 为 统一 性 质 。 我 们 定义 统一 协定 如 下 : 

统一 协定 ， 如 果 一 个 进程 传递 消息 m， 不 论 该 进程 是 正确 的 还 是 出 故障 ， 在 group(m) 中 的 所 有 
正确 的 进程 终 将 传递 m, 

统一 协定 允许 一 个 进程 在 传递 一 个 消息 后 崩溃， 同时 仍然 保证 所 有 正确 的 进程 将 传递 此 消息 。 我 
们 已 经 论证 了 图 15-9 的 算法 满足 这 一 性 质 ， 该 性 质 比 前 面 定义 的 非 统一 协定 更 强 。 

对 于 一 些 应 用 ， 其 中 进程 在 崩溃 前 可 以 采取 行动 产生 一 个 可 观察 的 不 一 致 现象 ， 在 这 种 应 用 中 ， 
统一 协定 是 有 用 的 。 例 如 ， 考 虑 进程 是 管理 银行 账户 副本 的 服务 器 ， 且 账户 的 更 新 使 用 可 靠 组 播发 送 
到 服务 器 组 的 情况 。 如 果 组 播 不 满足 统一 协定 ， 那 么 就 在 一 个 服务 器 崩 省 前 ， 访 问 该 服务 器 的 客户 可 
以 观察 到 一 个 其 他 服务 器 都 不 会 处 理 的 更 新 。 

有 趣 的 是 ,在 图 15-9, WRH] “R-deliver m” Al “if (qp) then B-multicast (g, m); end 
下 ”这 两 行 的 顺序 ， 那 么 算法 将 不 满足 统一 协定 。 

正如 协定 有 一 个 统一 的 版 本 一 样 ， 任 何 组 播 性 质 也 有 统一 的 版 本 ， 包 括 有 效 性 、 完 整 性 和 我 们 将 
要 定义 的 有 序 性 。 


15.4.3 BFAR 


由 于 底层 的 一 对 一 发 送 操作 会 发 生 随 机 延迟 ， 因 此 15. 4. 1 节 的 基本 组 播 算法 按 任 意 顺 序 给 进程 传 
递 消息 。 这 种 顺序 保证 的 缺少 对 许多 应 用 而 言 都 是 不 能 令 人 满意 的 。 例 如 ， 在 一 个 核电 站 里 ， 表 示 对 
安全 条 件 有 威胁 的 事件 和 表示 控制 单元 的 动作 的 事件 能 被 系统 中 的 所 有 进程 以 同样 的 顺序 观察 到 是 很 
重要 的 。 
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就 像 第 6 章 讨论 的 ， 常 见 的 排序 需求 有 全 排序 、 因 果 排 序 、FIFO 排序 以 及 全 - 因果 排序 和 全 - 
FIFO 排序 的 混合 。 为 了 简化 讨论 ,我 们 在 假定 任何 进程 至 多 属于 一 个 组 的 前 提 下 定义 这 些 排序 。 后 面 
我 们 还 将 讨论 允许 组 之 间 有 重 倒 的 情况 。 

FIFO 排序 : 如果 一 个 正确 的 进程 发 出 multicast (g，m)， 然 后 发 出 muliicast (g, m), BARS 
传递 m' 的 正确 的 进程 将 在 m' 前 传递 m。 

因果 排序 : 如 果 multicast (g, m) 一 multicast(g，m')， 其 中 一 是 只 由 g 的 成 员 之 间 发 送 的 消息 
引起 的 发 生 在 先 关系 ,那么 任何 传递 m' 的 正确 的 进程 将 在 m' 前 传递 m, 

全 排序 : 如 果 一 个 正确 的 进程 在 传递 m' 前 传递 消息 m, 那么 其 他 传递 m' 的 正确 的 进程 将 在 m Ai 
传递 m。 

因果 排序 隐 含 FIFO 排序 ， 因 为 同一 进程 的 任何 两 个 组 播 都 被 发 生 在 先 关系 联系 起 来 。 注 意 ，FIFO 
排序 和 因果 排序 都 只 是 偏 序 : 一 般 来 说 ,不 是 所 有 的 消息 都 由 同一 进程 发 送 。 同 样 ， 一 些 组 播 是 并 发 
的 〈 不 是 按 发 生 在 先 关系 排序 ) 。 

图 15-11 说 明了 3 个 进程 的 排序 。 仔 细 观 察 图 可 发 现 ， 全 排序 消息 的 传递 顺序 与 它们 被 发 送 的 物 
理 时 间 的 顺序 相反 。 事 实 上 ， 全 排序 的 定义 允许 消息 的 传递 可 以 随机 排序 ， 只 要 该 顺序 在 不 同 进程 中 
是 一 样 的 即 可 。 因 为 全 排序 不 必 同 时 也 是 FIFO 或 因果 排序 ， 我 们 把 FIFO - 全 的 混合 排序 定义 为 消息 
传递 既 遵 守 FIFO 也 遵守 全 排序 的 排序 。 同 样 ， 在 因果 - 全 排序 下 ， 消 息 传递 既 遵 守 因 果 排 序 也 遵守 全 
排序 。 














时 间 























Pi P, P 


图 15-11 组 播 消息 的 全 排序 、FIFO 排序 和 因果 排序 


有 序 组 播 的 定义 并 不 假定 或 隐 含 可 靠 性 。 例 如 ， 读 者 可 以 证 明 ， 在 全 排序 下 ， 如 果 正 确 的 进程 P 
a 传递 消息 m 然后 传递 m'， 那 么 正确 的 进程 g 可 以 传递 m 而 不 传递 m RHEE m 后 的 任何 消息 。 
i 我 们 也 可 以 构造 有 序 的 和 可 靠 的 混合 协议 。 一 个 可 靠 的 全 排序 的 组 播 在 文献 中 常 被 称 为 原子 组 
651) 3 (atomic multicast) 。 同 样 ， 我 们 可 以 构造 可 靠 的 FIFO 组 播 、 可 靠 的 因果 组 播 和 混合 排序 组 播 的 可 
SERA, 
正如 我 们 将 看 到 的 那样 ， 对 组 播 消息 的 传递 排序 在 传递 延迟 和 带宽 消耗 方面 是 昂贵 的 。 我 们 已 描 
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述 的 排序 语义 可 能 会 不 必要 地 延迟 消息 的 传递 ， 即 在 应 用 层 ， 一 个 消息 可 能 因为 男 一 个 它 事实 上 不 依 
赖 的 消息 而 被 延 返 。 因 此 ,一 些 人 提出 了 只 用 应 用 特定 的 消息 语义 来 确定 消息 传递 的 顺序 的 组 播 系统 
[ Cheriton and Skeen 1993, Pedone and Schiper 1999], 

公告 牌 的 例子 ”为 使 组 播 传递 语义 更 具体 ， 考 虑 用 户 张贴 消息 到 公告 牌 的 应 用 。 每 个 用 户 运 行 一 
个 公告 牌 应 用 进程 。 每 个 讨论 的 主题 有 自己 的 进程 组 。 当 一 个 用 户 将 一 个 消息 张贴 到 一 个 公告 牌 时 ， 
应 用 进程 把 用 户 的 张贴 组 播 到 相应 的 组 。 每 个 用 户 的 进程 是 他 或 她 感 兴趣 的 主题 的 组 的 成 员 ， 所 以 用 
户 只 收 到 关于 这 个 主题 的 张贴 。 

如 果 每 个 用 户 最 终 要 收 到 每 个 张贴 ， 就 需要 可 靠 的 组 播 。 用 户 也 有 排序 的 需求 ， 图 15-12 给 出 了 

















出 现在 某 个 用 户 面前 的 张贴 。 至 少 需 要 FIFO 排序 ， 因 为 公告 牌 : 对 操作 系统 感 义 趣 的 

这 样 才能 使 用 户 可 以 按 同 样 的 顺序 收 到 来 自 一 个 给 定 用 户 [gee ”张贴 人 主题 | 

(例如 “A. Hanlon”) 的 每 一 个 张贴 ， 用 户 才 可 以 一 致 地 | 23 A Hanlon Mach 

讨论 A. Hanlon 的 第 二 个 张贴 。 24 G.Joseph Microkernels 
$A, ŁA “Re: Microkemels” (25) # “Re; 25 A.Hanlon Re: Microkernels 

Mach” (27) 的 消息 出 现在 它们 引用 的 消息 之 后 。 为 保证 | 26 TE Heureux RPC performance 

这 种 关系 ， 需 要 因果 排序 的 组 播 。 否 则 ， 随 机 的 消息 延迟 | py O Re: Mach 

可 能 会 造成 消息 “Re: Mach” 出 现在 关于 Mach 最 初 的 消 

息 之 前 。 图 15-12 公告 牌 程序 的 显示 


如 果 组 播 传递 是 全 排序 的 ， 那么 左边 一 栏 的 编号 在 用 户 之 间 是 一 致 的 。 用 户 可 以 无 二 义 地 谈 及 茶 
个 消息 ， 如 “消息 24”。 

实际 上 ，USENET 公告 牌 系统 既 未 实现 因果 排序 也 未 实现 全 排序 。 在 大 范围 内 实现 这 些 排 序 的 通 
信 代 价 超过 了 实现 排序 所 带 来 的 好 处 。 

实现 FIFO 排序 FIFO 排序 的 组 播 (具有 FO-multicast 和 FO-deliver 操作 ) 可 以 用 顺序 号 实现 ， 就 
像 我 们 在 一 对 一 通信 中 实现 的 那样 。 我 们 只 考虑 非 重 全 组 的 情况 。 读 者 可 以 验证 ，1S.4. 2 节 中 我 们 在 
耳 组 播 之 上 定义 的 可 靠 组 播 也 保证 了 FIFO 排序 ， 但 我 们 将 展示 如 何在 给 定 的 任何 基本 组 播 之 上 构造 
FIFO 排序 的 组 播 。 我 们 使 用 15. 4. 2 节 可 靠 组 播 协议 中 进程 p 的 变量 % ARE, Si 是 进程 p 已 发 送 到 gg 
的 消息 个 数 ，R 是 p 已 传递 的 来 自 进程 g 并且 发 往 组 g 的 最 近 的 消息 的 序号 。 

p 要 FO-multicast 一 个 消息 到 组 g A, EASA LINE S, A B- multicast 消息 到 g， 然 后 把 S 
加 1。 当 收 到 来 自 4g 的 序号 为 5 的 消息 时 , p 检查 是 否 5= Rr +1。 如 果 满 足 该 条 件 ， 说明 这 个 消息 是 预 
期 的 来 自发 送 进 程 9 的 下 一 个 消息 ，pFO-deliver BIH, HHA R: =5。 如 果 5S> 月 +1， 它 把 消息 放 
到 保留 队列 中 ， 直 到 介 于 其 间 的 消息 已 被 传递 且 5= 户 +1 为 止 。 

因为 来 自 一 个 给 定 发 送 进 程 的 所 有 消息 以 同样 的 次 序 传递 ， 并 且 消 息 的 传递 被 延迟 直到 到 达 该 序 
号 ， 显 然 FIFO 排序 的 条 件 已 满足 。 但 是 这 仅 在 组 不 重 伙 的 假设 下 成 立 。 

注意 ， 在 这 个 协议 中 ， 可 以 使 用 B-multicast 的 任何 实现 。 而 且 ， 如 果 用 可 靠 的 R- multicast 代替 B- 
multicast， 则 可 以 获得 可 靠 的 FIFO 组 播 。 

实现 全 排序 ”实现 全 排序 的 基本 途径 是 为 组 播 消息 指定 全 排序 标识 符 ， 以 便 每 个 进程 可 以 基于 这 
些 标 识 符 做 出 相同 的 排序 决定 。 传 递 算法 与 我 们 描述 的 用 于 FIFO 排序 的 算法 很 相似 ; 区 别 是 进程 保持 
组 特定 的 序号 ， 而 不 是 进程 特定 的 序号 。 我 们 只 考虑 如 何 对 发 送 到 非 重 琶 组 的 消息 进行 全 排序 。 我 们 
把 这 类 组 播 操作 称 为 TO-multicast 和 TO- deliver, 

我 们 讨论 为 消息 指定 标识 符 的 两 种 主要 方法 。 第 一 种 方法 是 由 一 个 叫做 顺序 者 的 进程 来 指定 标识 
符 《〈 见 图 15-13) 。 一 个 要 TO- multicast 消息 m 到 组 g 的 进程 把 一 个 唯一 的 标识 符 id(m) 附加 到 消息 
Eo BE g 的 消息 在 被 发 送 到 g 的 成 员 的 同时 ， 也 被 发 送 到 g 的 顺序 者 sequencer(g)。( 顺 序 者 可 以 是 
g 的 一 个 成 员 。) 进程 sequencer(g) 维护 一 个 组 特定 的 序号 ， 用 来 给 它 B- deliver 的 消息 指定 连续 的 
且 不 断 增 加 的 序号 。 它 通过 给 g 发 送 B-multicast 顺序 消息 来 宣布 序号 〈 详 见 图 15-13). 

一 个 消息 将 一 直 保留 在 保留 队列 中 ， 直 到 它 依照 相应 的 序列 号 可 以 被 TO- deliver 为 止 。 因 为 序号 
是 (被 顺序 者 ) 明确 定义 的 ， 所 以 满足 全 排序 的 标准 。 而 且 ， 如 果 进 程 使 用 B-multicast 的 一 个 FIFO 
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排序 的 变种 ， 则 全 排序 的 组 播 也 是 因果 序 的 。 证 明 的 过 程 请 读者 自行 完成 。 


基于 顺序 者 的 方案 有 一 个 明显 的 问题 ， 
即 顺序 者 会 成 为 瓶颈 ， 并 且 是 一 个 关键 的 故 
障 点 。 有 一 些 解决 故障 问题 的 实用 算法 。 
Chang and Maxemchunk [1984] 首先 提出 了 
一 个 使 用 一 个 顺序 者 (它们 称 为 令 牌 场地 
(token site ) ) 的 组 播 协议 。Kaashoek 等 人 
[1989] 为 Amoeba 系统 开发 了 一 个 基于 顺序 
者 的 协议 。 这 些 协 议 保 证 一 个 消息 被 传递 前 
保留 在 f+1 个 结 点 的 保留 队列 中 ， 因 此 可 以 
容忍 多 达 f 个 故障 。 像 Chang 和 Maxemchunk 
一 样 ，Birman 等 人 [1991] 也 使 用 一 个 令 牌 
保留 场地 作为 顺序 者 。 令 牌 可 以 在 进程 之 间 
传递 ， 这样， 如 果 只 有 一 个 进程 发 送 全 排序 
组 播 ， 那么 这 个 进程 可 以 作为 顺序 者 ， 从 而 
减少 通信 。 

Kaashoek 等 人 的 协议 使 用 基于 硬件 的 组 








1. 组 成 员 p 的 算法 
初始 化 : :=0; 
为 了 给 组 g 发 TO-multicast 消 息 : 
B-multicast (gU (sequencer (g) },<m,i>) ; 
#£B-deliver (<m,i>) 时 ， 其 中 g=group (m) 
将 <mi> 放 在 保留 队列 中 ; 
在 B-deliver (Moa <“order”,i,s>) 时 ， 其 中 g=group (Mw) 
Wait until <m,i> 在 保留 队列 中 并 且 S=r。; 
TO-~deliver m;// 在 从 保留 队列 中 删除 它 之 后 


Te=S+1l; 


2. 顺 序 者 g 的 算法 

初始 化 : sp0; 

在 B-deliver (<m,i>〉 时 ， 其 中 g=group (m) 
B-multicast (g,< “order” ,is,>) ; 
Se:=Setl; 





图 15-13 使 用 顺序 者 的 全 排序 





播 ( 如 可 在 以 太 网 上 用 的 ) ， 而 不 是 可 靠 的 点 对 点 通信 。 在 他 们 的 协议 的 最 简单 的 变种 里 ， 进 程 把 要 
组 播 的 消息 一 对 一 发 送 到 顺序 者 。 顺 序 者 把 消息 本 身 连同 标识 符 和 序号 一 起 组 播 。 这 样 做 的 优点 是 组 
中 其 他 成 员 每 次 组 播 只 接收 一 个 消息 ， 但 缺点 是 带宽 的 使 用 增加 。 完 整 的 协议 描述 见 www. cdk5. net/ 
coordination, 

实现 全 排序 组 播 的 第 二 种 方法 是 一 种 进程 以 分 布 式 方式 集体 地 对 分 配给 消息 的 序号 达成 一 致 的 方 
法 。 一 个 简单 的 算法 一 一 与 最 初 为 ISIS 工具 包 开发 的 实现 全 排序 的 组 播 传递 的 算法 [Birman and Joseph 
1987a] 类 似 ， 如 图 15-14 所 示 。 它 也 是 由 一 个 进程 把 消息 B-mujticast 到 组 成 员 。 组 可 以 是 开放 或 封闭 
的 。 当 消息 到 达 时 ， 接 收 进程 提出 消息 的 序号 , 并 把 它们 返回 给 发 送 者 ， 后 者 用 这 些 顺 序数 来 产生 协 
定 的 序号 。 

组 g 中 的 每 个 进程 CREF AL CRIES HILAR g 观察 到 的 最 大 的 协定 序号 ) AP (EACE 
出 的 最 大 序号 ) 。 进 程 组 播 消息 m 到 组 g 的 算法 如 下 : 

1) pB-multicast<m, i> 到 g， 其 中 i 是 m 的 一 个 唯一 的 标识 符 。 

2) 每 个 进程 g 回答 发 送 者 p， 提 议 P:; =Max(Al, Pl) +1 为 此 消息 的 协定 序号 。 实 际 上 ， 在 提 
议 的 P 里 必须 包括 进程 标识 符 以 保证 全 排 
序 ， 否则 ， 不 同 的 进程 可 能 提议 相同 的 整数 所 
值 。 但 为 简单 起 见 我 们 在 这 里 不 这 样 做 。 每 
个 进程 临时 把 提议 的 序号 分 配给 消息 ， 并 把 
消息 放 和 人 它 的 保留 队列 中 ， 保 留 队 列 是 按照 
最 小 的 (smallest) 序号 在 队 首 的 方式 排序 。 

3) p 收集 所 有 提议 的 序号 ， 并 选择 最 大 
的 数 a 作为 下 一 个 协定 序号 。 然 后 ， 它 B-mul- 
ticast <i,，a > 到 g。g 中 每 个 进程 g 置 和: = 
Max(41，a)， 并 把 a 附加 到 (标识 符 为 i 的 ) 
消息 上 。 如 果 协 定 序号 与 提议 的 序号 不 一 样 ， 
它 把 保留 队列 中 的 消息 重新 排序 。 当 在 保留 
队列 队 首 的 消息 被 赋予 协定 序号 时 ， 它 被 转 
移 到 传递 队列 的 队 尾 。 但 是 ,已 被 赋予 协定 序号 、 但 不 在 保留 队列 队 首 的 消息 不 被 转移 。 

如 果 每 个 进程 同意 同一 组 序号 ， 并 按 相应 的 顺序 传递 它们 ， 那 么 满足 全 排序 。 显 然 ， 正 确 的 进程 





图 15-14 全 排序 的 ISIS 算法 
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最 终 会 对 同一 组 序号 达成 一 致 ， 但 我 们 必须 指出 ， 序 号 是 单调 递增 的 ， 并 且 正 确 的 进程 不 能 过 早 地 传 
递 消息 。 
假定 给 消息 m 指派 了 一 个 协定 序号 ， 并 已 到 达 保 留 队 列 的 队 首 。 根 据 构造 规则 ， 在 这 阶段 以 后 收 
到 的 消息 将 在 (也 应 在 ) m 后 传递 ， 它 将 有 一 个 比 m, 大 的 提议 序号 ， 因 此 也 有 一 个 比 m, 大 的 协定 序 
Fo XH, Om 是 尚未 指定 协定 序号 、 但 在 同一 队列 中 的 其 他 消息 。 根 据 刚 给 出 的 算法 ,我 们 有 : 
agreedSequence( m, ) > proposedSequence( m, ) 
因为 m ENE: 
proposedSequence( m, ) > agreedSequence( m, ) 
所 以 : 
agreedSequence(m, ) > agreedSequence( m; ) 
这 样 ,全 排序 得 到 了 保证 。 
这 个 算法 比 基 于 顺序 者 的 组 播 有 更 大 的 延迟 : 在 一 个 消息 被 传递 前 ， 发 送 者 和 组 之 间 要 串 行 发 送 
3 个 消息 。 
注意 ， 这 个 算法 选择 的 全 排序 并 不 保证 因果 或 FIFO 序 : 受 通信 延迟 的 影响 ， 任 意 两 个 消息 被 按 着 
本 质 上 随机 的 全 排序 来 传递 。 
实现 全 排序 的 其 他 方法 见 Melliar-Smith 等 人 [1990]. Garcia-Molina 和 Spauster [1991] 和 Hadzi- 
lacos, Toueg [1994] 的 文章 。 
实现 因果 排序 图 15-15 给 出 了 一 个 非 重 二 封闭 组 的 算法 ， 该 算法 基于 Birman 等 人 [1991] 开发 
的 算法 ， 甚 中 因果 序 组 播 操作 是 CO-multicast 和 CO-deliver。 该 算法 只 考虑 由 组 播 消息 建立 的 发 生 在 先 
关系 。 如 果 进 程 互相 发 送 一 对 一 消息 ， 那 么 这 些 进程 将 不 会 被 考虑 。 
对 组 成 员 p《〈ij=12…N) 的 算法 
初始 化 : 
Ve [j=0 (=12…N) ; 
为 了 给 组 g 发 CO-multicast 消 息 m: 
V8 [i}:=Vefi}+1; 
B-multicast (g,< Vém>) ; 
在 B-deliver (<Vem>) 来 自 p GAD 的 一 个 消息 时 ,其 中 g=group (m) : 
将 <Vsm> 放 入 保留 队列 ， 直 到 Vf 中 =V3 AV k] V8 [k] (kp ; 
CO-deliver m;// 在 把 它 从 保留 队列 中 删除 后 
VO]:=V# D+l; 











图 15-15 ”使 用 时 间 稚 向 量 的 因果 排序 


每 个 进程 记 人 1 = 1，2，…，W) 维护 自己 的 时 间 截 向 量 ( 见 14. 4 节 ) 。 时 间 徐 的 分 量 记录 来 自 每 
个 进程 的 发 生 在 下 一 个 要 组 播 的 消息 之 前 的 组 播 消 息 数 。 

为 了 CO-multicast 一 个 消息 到 组 g， 进 程 在 时 间 蕉 的 相应 分 量 上 加 1， 并且 把 消息 和 时 间 蕉 3-multi- 
cast 到 g, 

当 进 程 p,B-deliver KA p, 的 一 个 消息 时 ， 它 必须 在 它 能 CO- deliver 该 消息 前 ， 把 消息 放 人 保留 队 
列 中 ， 直 到 可 以 保证 它 已 经 传递 了 按 因果 关系 在 该 消息 前 的 任何 消息 。 为 实现 这 个 目的 ，P; 会 一 直 等 
待 ， 直 到 (1〉 它 已 传递 了 由 p 发 送 的 任何 较 早 的 消息 ; (2) CORT p 在 组 播 该 消息 时 已 传递 的 
任何 消息 。 这 些 条 件 都 可 以 通过 检查 时 间 稚 来 检测 ， 参 见 图 15-15。 注 意 ， 一 个 进程 可 以 把 它 CO-mul- 
ticast 的 任何 消息 立即 CO-deliver 到 它 自 己 ， 虽 然 在 图 15-15 中 没有 描述 这 一 点 。 

每 个 进程 在 传递 消息 时 ， 要 更 新 它 的 向 量 时 间 故 ， 以 维护 按 因果 关系 在 先 的 消息 计数 。 它 是 通过 
把 时 间 惟 的 第 j 个 分 量 加 一 来 做 到 这 一 点 的 。 这 是 对 14.4 节 更 新 向 量 时 钟 的 规则 里 出 现 的 合并 
(merge) 操作 的 一 种 优化 。 考 虑 到 图 15-15 的 算法 中 传递 条 件 保 证 只 有 第 7 个 分 量 会 增加 ， 我 们 可 以 做 
到 这 种 优化 。 

我 们 概述 此 算法 的 正确 性 证 明 如 下 。 假 设 mulkicast(g，m) 一 multicast(g，m’)。 令 V 和 六 分 别 是 m 
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和 m" 的 向 量 时 间 蕉 。 从 算法 可 以 直接 地 归纳 证 明了 < 也。 特别 地 ， 如 果 进 程 p; AB m, Ap 
AV[k] <V'[k]. 

考虑 当 某 个 正确 的 进程 p,B-deliver m’ (与 CO-deliver 相反 ) 但 没有 先 CO- deliver m 时 会 发 生 什 么 。 
根据 算法 , 仅 当 p, 传递 一 个 来 自 p RRA, Vik) 可 以 加 1。 Ep ZRAKE m, Ae Vk] 的 增 
长 不 可 能 超过 VLA] -1。 于 是 p 不 可 能 CO-deliver mm' ， 因 为 需要 满足 VLk] 宇 VTk]， 这 样 的 话 ， 就 会 
A Vik] >k]. 

读者 应 该 能 证 明 ， 如 果 用 可 靠 的 R- multicast 原 语 蔡 换 B- multicast， 能 得 到 既 可 靠 又 是 因果 序 的 
组 播 。 

此 外 ， 如 果 把 因果 组 播 协 议和 基于 顺序 者 的 全 排序 传递 协议 结合 起 来 ， 那 么 我 们 就 得 到 既是 全 排 
序 又 是 因果 序 的 消息 传递 。 顺 序 者 根据 因果 序 传递 消息 ， 并 按 收 消息 的 次 序 组 播 消息 的 序号 。 目 的 组 
中 进程 直到 收 到 了 来 自 顺序 者 的 排序 消息 ， 并 且 消 息 是 传递 队列 中 的 下 一 个 消息 时 ， 才 发 送 此 消息 。 

因为 顺序 者 按 因 果 序 传递 消息 ， 并 且 所 有 其 他 进程 按 与 顺序 者 相同 的 顺序 传递 消息 ， 因 此 确实 既 
是 全 排序 又 是 因果 序 。 | 

组 重 番 ”在 FIFO、 全 排序 和 因果 排序 语义 的 定义 和 相关 算法 中 ， 我 们 只 考虑 非 重 全 的 组 。 这 样 简 
化 了 问题 ,但 并 不 能 令 人 满意 ， 因 为 进程 一 般 会 成 为 多 个 重 倒 组 的 成 员 。 例 如 ， 一 个 进程 可 能 对 来 自 
多 个 来 源 的 事件 感 兴趣 ， 并 因此 要 加 入 事件 分 发 组 的 相应 集合 。 

我 们 可 以 把 排序 定义 扩展 为 全 局 排序 [ Hadzilacos and Toueg 1994] ， 其 中 我 们 必须 考虑 如 果 消 息 m 
被 组 播 到 g， 且 消息 严 ' 被 组 播 到 g'， 则 两 个 消息 被 发 到 gg’ 的 成 员 。 

全 局 FIFO 排序 ; 如 果 一 个 正确 的 进程 发 出 multicast(g，m) ， 然 后 发 出 multicast(g', m'), W gNg 
中 的 每 一 个 传递 m' 的 正确 的 进程 将 在 m' 前 传递 m, 

全 局 的 因果 排序 ,如果 multicast (g, m) 一 multicast(g，m') ， 其 中 一 是 任何 组 播 消息 链 都 包含 
的 发 生 在 先 关 系 ， 则 gng' 中 的 任何 传递 m' 的 正确 的 进程 将 在 m' 前 传递 mo 

进程 对 的 全 排序 : 如果 一 个 正确 的 进程 在 传递 发 送 到 g' 的 消息 m' 前 传递 了 发 送 到 g 的 消息 m， 则 
gmg' 中 的 任何 传递 m' 的 其 他 正确 的 进程 将 在 m' 前 传递 mo 

全 局 的 全 排序 : 令 “< ”是 传递 事件 之 间 的 排序 关系 。 我 们 要 求 “< ”遵守 进程 对 的 全 排序 ， 并 
且 无 环 一 一 在 进程 对 的 全 排序 下 ,“ < ”默认 不 是 无 环 的 。 

实现 这 些 排序 的 一 种 方法 可 能 是 组 播 每 个 消息 到 系统 中 所 有 进程 的 组 。 每 个 进程 根据 消息 是 否 
属于 group(m) 来 放弃 或 传递 消息 。 这 是 一 个 低 效 的 并 不 令 人 满意 的 实现 : 除了 目的 组 的 成 员 以 外 ， 
组 播 应 该 涉及 尽 可 能 少 的 进程 。 在 Birman 等 人 [1991], Garcia-Molina 和 Spauster [ 1991 ] Hadzilacos 
和 Toueg [1994] Kindberg [1995] Rodrigues 等 人 [1998] 的 文章 中 研究 了 其 他 的 方法 。 

在 同步 和 异步 系统 中 的 组 播 ”本 节 描 述 了 可 靠 的 无 序 组 播 、( 可靠 的 ) FIFO 序 的 组 播 、( 可 靠 的 ) 
因果 序 组 播 和 全 排序 组 播 的 算法 。 我 们 还 指出 如 何 实现 既是 全 排序 又 是 因果 序 的 组 播 。 我 们 把 既 保证 
FIFO 序 又 保证 全 排序 的 组 播 原 语 的 算法 的 设计 留 给 读者 自行 完成 。 我 们 描述 的 所 有 算法 在 异步 系统 中 
都 能 正常 工作 。 

然而 ， 我 们 没有 给 出 一 个 既 保证 可 靠 传 递 又 保证 全 排序 传递 的 算法 。 虽 然 看 起 来 有 点 令 人 惊奇 ， 
但 具有 这 些 保证 的 协议 在 同步 系统 中 是 可 能 的 同时 ， 在 异步 的 分 布 式 系 统 中 是 不 可 能 的 一 一 即使 是 一 
个 在 最 坏 情 况 下 忍受 单个 进程 崩溃 故障 的 协议 。 我 们 将 在 下 一 节 讨 论 这 一 问题 。 


15.5 共识 和 相关 问题 

本 节 介 绍 共识 问题 [Pease et al. 1980, Lamport et al. 1982] 、 相 关 的 拜占庭 将 军 问题 和 交互 一 致 性 
问题 。 我 们 把 这 些 问 题 统称 为 协定 。 粗 略 地 说 ， 该 问题 是 在 一 个 或 多 个 进程 提议 了 一 个 值 应 当 是 什么 
后 ， 使 进程 对 这 个 值 达成 一 致意 见 。 

例如 ,第 2 章 描述 了 一 种 两 个 部 队 要 对 进攻 或 撤退 达成 一 致意 见 的 情形 。 类 似 地 ， 我 们 要 求 ， 在 
每 一 个 计算 机 提议 了 一 个 动作 后 ， 控 制 飞船 引擎 的 所 有 正确 的 计算 机 要 决定 “继续 ”还 是 “放弃 ”。 
在 把 一 笔 资金 从 一 个 账户 转 到 另 一 账户 的 事务 里 ， 涉 及 的 计算 机 必须 对 相应 的 借 、 贷 动作 达成 一 致 。 
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在 互 扩 中， 进程 对 哪个 进程 可 以 进 人 临界 区 达成 协定 。 在 选举 中 ， 进 程 对 当选 进程 达成 协定 。 在 全 排 
序 组 播 中 ， 进 程 对 消息 传递 顺序 达成 协定 。 

适合 这 几 类 协定 的 协议 是 存在 的 。 我 们 描述 了 其 中 的 一 些 协议 ,在 第 16 章 和 第 17 章 还 会 研究 事 
务 。 但 是 ， 考 虑 协定 的 更 一 般 形 式 ， 探 索 共 同 的 特点 和 解决 方案 ， 对 我 们 是 有 用 的 。 

本 节 将 更 精确 地 定义 共识 以 及 与 它 相关 的 3 个 协定 问题 : 拜占庭 将 军 、 交 互 一 致 性 和 全 排序 组 播 
问题 。 接 下 来 ， 我 们 研究 在 什么 情况 下 这 些 问题 可 得 到 解决 ， 并 概述 一 些 解决 方案 。 特 别 地 ， 我 们 将 
讨论 众所周知 的 Fischer 等 人 [1985] 的 不 可 能 性 结果 ， 它 声明 在 异步 系统 中 ， 即 使 进程 组 只 含有 一 个 
有 错 进程 也 不 能 保证 达成 共识 。 最 后 ， 我 们 考虑 在 有 不 可 能 性 结果 情况 下 的 实用 算法 。 


15. 5.1 系统 模型 和 问题 定义 

我 们 的 系统 模型 包括 一 组 通过 消息 传递 进行 通信 的 进程 p,(i=1，2,，…，,N)。 在 许多 实际 情况 下 ， 
一 个 重要 的 要 求 是 ， 即 使 有 故障 也 应 能 达成 共识 。 如 前 所 述 ， 我 们 假设 通信 和 是 可 靠 的 ,但 是 进程 可 能 
出 现 故障 。 本 节 将 考虑 拜占庭 〈 随 机) 进程 故障 以 及 崩溃 故障 。 我 们 有 时 假设 NN 个 进程 中 至 多 有 /个 
是 有 错 的 ， 即 它们 具有 某 种 类 型 的 错误 ， 其 余 的 进程 是 正确 的 。 

如 果 出 现 随 机 故障 ， 那 么 刻画 系统 的 另 一 因素 是 进程 是 否 对 它们 发 送 的 消息 进行 数字 签名 (参见 
11.4 节 )。 如 果 进 程 对 它们 的 消息 签名 ， 那 么 一 个 故障 进程 可 能 造成 的 伤害 就 受到 限制 。 特 别 地 ， 在 
一 个 协定 算法 过 程 中 ， 它 对 一 个 正确 的 进程 发 送 给 它 的 值 不 会 做 出 错误 的 断言 。 当 我 们 讨论 拜占庭 将 
军 问 题 的 解 时 ， 消 息 签名 的 相关 性 将 变 得 更 为 清楚 。 默 认 情 况 下 ， 我 们 假设 不 进行 签名 。 

共识 问题 的 定义 ”为 达到 共识 ， 每 个 进程 最 初 处 于 未 决 (undecided) 状态 并且 提议 集合 DD 中 
的 一 个 值 z，(i = 1，2，…， 六 ) 。 进 程 之 间 互 相通 信 ， 交 换 值 。 然 后 ， 每 个 进程 设置 一 个 决定 变量 
(decision variable) d,(i=1, 2, «+, N) 的 值 。 在 这 种 
情况 下 ， 它 进入 决定 〈decided) 状态 。 在 此 状态 下 , 它 P 





d,:=proceed d,.=proceed 





RERA di(i=1, 2, =, N)o Æ 15-16 给 出 了 参与 一 

个 共识 算法 的 3 个 进程 。 两 个 进程 提议 “继续 ”, 第 三 。” vi=proceed v=proceed 
个 进程 提议 “放弃 ”但 随后 崩溃 。 保 持 正确 的 两 个 进程 

都 决定 “继续 ”。 类 识 算法 


共识 算法 的 要 求 是 在 每 次 执行 中 满足 以 下 条 件 ; 

终止 性 : 每 个 正确 进程 最 终 设置 它 的 决定 变量 。 

协定 性 ， 所 有 正确 进程 的 决定 值 都 相同 ， 即 如 果 p: 
Alp, 是 正确 的 并 旦 已 进入 决定 状态 , WA d =d (i, j= 


v:=abort 


| 





1,2, °°, N)。 p HW) 
完整 性 如 果 正 确 的 进程 都 提议 同一 个 值 ， 那 么 处 
于 决定 状态 的 任何 正确 进程 已 选择 了 该 值 。 图 15-16 3 个 进程 的 共识 


根据 应 用 的 不 同 ， 完 整 性 定义 可 以 有 变化 。 例 如 ， 
一 种 较 弱 的 完整 性 是 决定 值 等 于 某 些 正确 进程 提议 的 值 ， 而 不 必 是 所 有 进程 提议 的 值 。 除 非 有 特别 说 
明 ， 我 们 将 使 用 上 面 的 定义 。 在 文献 中 ， 完 整 性 也 被 称 作 有 效 性 。 

为 理解 问题 的 表达 是 如 何 翻译 为 算法 的 ， 考 虑 进程 不 出 现 故 障 的 一 个 系统 。 这 时 ， 解 决 共识 是 比 
较 简单 的 。 例 如 ， 我 们 可 以 把 进程 集中 为 一 组 ， 并 让 每 个 进程 可 靠 地 将 它 提 议 的 值 组 播 到 组 中 的 成 员 。 
每 个 进程 等 待 ， 直 到 它 收集 到 N ME (包括 它 自己 的 ) 为 止 。 然 后 它 计算 函数 majority (v, n, 0, 
sw)， 该 函数 返回 它 的 参数 中 出 现 最 多 的 值 ， 如 果 没 有 ， 返 回 特殊 值 上 ep。 终止 性 由 组 播 操作 的 可 靠 
性 保证 。 协 定性 和 完整 性 由 majority 的 定义 和 可 靠 组 播 的 完整 性 保证 。 每 个 进程 收 到 相同 的 提议 值 集 
合 ， 并 且 每 个 进程 计算 这 些 值 上 的 相同 函数 。 因 此 它们 一 定 一 致 ， 并 且 如 果 每 个 进程 提议 相同 的 值 ， 
那么 它们 都 决定 这 个 值 。 

值得 注意 的 是 ， 这 些 进程 为 了 从 候选 值 中 选 出 一 个 共同 认可 的 值 可 以 采用 很 多 了 旺 数 ， 函 数 majority 
只 是 其 中 之 一 。 例 如 ， 如 果 那 些 值 是 有 序 的 ， 那 么 函数 minimum, maximum 也 是 合适 的 隔 数 。 
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如 果 进 程 可 能 崩溃 ， 那 么 就 会 给 检测 故障 带 来 复杂 性 ， 共 识 算法 的 执行 是 否 能 够 终止 并 不 是 马上 
就 能 得 出 的 。 事 实 上 ， 如 果 系 统 是 异步 的 ， 它 可 能 不 会 终止 。 我 们 稍 后 再 讨论 这 个 问题 。 

如 果 进 程 以 随机 (拜占庭 ) 方式 出 现 故障 ， 那 么 出 错 的 进程 原则 上 可 以 向 其 他 进程 发 送 任何 数 
据 。 虽 然 在 实际 中 这 看 起 来 不 太 可 能 ， 但 是 一 个 有 漏洞 的 进程 确实 可 能 出 现 这 样 的 错误 。 而 且 ， 这 样 
的 错误 可 能 不 是 偶然 的 ， 而 是 一 些 恶 意 操作 的 结果 。 某 些 人 可 能 故意 让 一 个 进程 给 一 组 进程 中 不 同 进 
程 发 送 不 同 的 值 ， 以 阻止 这 组 进程 达成 一 致 。 如 果 遇 到 这 种 不 一 致 的 情况 ， 正 确 的 进程 必须 用 它们 自 
己 接 收 的 值 和 别 的 进程 声明 的 所 接收 到 的 值 进行 比较 。 

拜占庭 将 军 问题 ”拜占庭 将 军 问 题 (Byzantine generals problem) [Lamport et al. 1982] 可 以 非 正 式 
地 表述 成 : 3 个 或 者 更 多 的 将 军 协商 是 进攻 还 是 撤退 。 一 个 将 军 (司令 ) 发 布 命令 ， 其 他 的 将 军 〈 作 
为 司令 手下 的 中 尉 ) 决定 是 进攻 还 是 撤退 。 但 是 一 个 或 者 多 个 将 军 可 能 会 叛变 ， 也 就 是 说 会 出 错 。 如 
果 司 令 上 叛变 ， 他 可 能 会 让 一 个 中 尉 进攻 ， 而 让 另 一 个 中 导 撤 退 。 如 果 一 个 中 尉 叛 变 ， 他 可 能 告诉 某 个 
中 尉 说 司令 让 他 进攻 ， 而 告诉 另 一 个 中 尉 说 司令 让 他 撤退 。 

拜占庭 将 军 问题 和 共识 问题 的 区 别 在 于 : 前 者 有 一 个 独立 的 进程 提供 一 个 值 ， 其 他 的 进程 来 决定 
是 否 采 取 这 个 值 ， 而 后 者 是 每 个 进程 都 提议 一 个 值 。 拜 占 庭 将 军 问 题 的 要 求 如 下 : 

终止 性 : 每 个 正确 进程 最 终 设置 它 的 决定 变量 。 

协定 性 : 所 有 正确 进程 的 决定 值 都 相同 : 如 果 p 和 局 是 正确 的 并 且 已 进入 决定 状态 ,那么 ad, 
(i, j=1, 2, =, N)o 

完整 性 ;如果 司令 是 正确 的 ， 那 么 所 有 正确 的 进程 都 采取 司令 提议 的 值 。 

值得 注意 的 是 ， 在 拜占庭 将 军 问题 中 ， 当 司令 正确 的 时 候 ， 完 整 性 隐 含 着 协定 性 ; 但 是 司令 并 不 
需要 一 定 是 正确 的 。 

交互 一 数 性 ”交互 一 致 性 问题 是 共识 问题 的 另 一 个 变种 ， 这 个 问题 中 每 个 进程 都 提供 一 个 值 。 算 
法 的 目的 是 正确 的 进程 最 终 就 一 个 值 向 量 达 成 一 致 ， 向 量 中 的 分 量 与 一 个 进程 的 值 对 应 。 我 们 称 这 个 
向 量 为 “决定 向 量 ” 。 例 如 ， 可 以 让 一 组 进程 中 的 每 一 个 进程 获得 相同 的 关于 该 组 中 每 一 个 进程 的 状 
态 信息 。 

交互 一 致 性 的 要 求 如 下 : 

终止 性 : 每 个 正确 进程 最 终 设置 它 的 决定 变量 。 

协定 性 : 所 有 正确 进程 的 决定 向 量 都 相同 。 

完整 性 ; 如 果 进 程 P 是 正确 的 ,那么 所 有 正确 的 进程 都 把 w 作为 它们 决定 向 量 中 的 第 i 个 分 量 。 

共识 问题 与 其 他 问题 的 关联 虽然 人 们 通常 用 随机 进程 故障 考虑 拜占庭 将 军 问 题 , 但 是 实际 上 ， 
共识 、 拜 占 庭 将 军 、 交 互 一 致 性 问题 在 随机 故障 和 册 淡 故障 的 环境 中 都 是 有 意义 的 。 同 样 ， 它 们 都 可 
以 用 于 同步 或 者 异步 的 系统 。 

有 时 候 可 以 用 解决 男 一 个 问题 的 方法 来 解决 这 个 问题 。 这 是 一 个 很 有 用 的 性 质 ， 不仅 是 因为 加 深 
了 我 们 对 问题 的 理解 ， 也 因为 通过 重用 已 有 的 解决 方案 ,我 们 能 降低 实现 的 工作 量 以 及 复杂 性 。 

假设 存在 如 下 方法 能 够 解决 共识 (C) 、 拜 占 庭 将 军 (BC) 和 交互 一 致 性 (IC) 问题 

在 一 个 对 共识 问题 的 解决 方案 中 ， CO Va os vy) 18 | PER p, RE, HR o, o, n, 
vy 代表 进程 所 提议 的 值 。 

在 一 个 对 拜占庭 将 军 的 解决 方案 中 ，BC,(j, o) 返回 进程 p; 的 决定 值 ， 其 中 pj 是 司令 ， 它 建议 的 
值 是 v。 

在 一 个 对 交互 一 致 性 问题 的 解决 方案 中 ，1C;(v, ,wv ，…，vw) [ 门 返回 进程 p; 的 决定 向 量 的 第 7 个 
Sy, HP o, my Oy 是 各 个 进程 提议 的 值 。 

在 对 C;,、BG;、IC, 的 定义 中 ， 我 们 假设 一 个 有 错 的 进程 提议 一 个 概念 值 ， 也 就 是 说 虽然 它 可 能 对 
不 同 的 进程 提供 不 同 的 值 ， 我 们 只 用 一 个 概念 值 。 这 只 是 为 了 方便 ， 我 们 的 解决 方案 不 会 依赖 于 这 个 
概念 值 的 具体 内 容 。 

可 以 从 其 他 问题 的 解决 方案 中 构造 出 对 一 个 问题 的 解决 方案 。 我 们 给 出 如 下 的 3 个 例子 : 

从 BG 构造 IC: 通过 将 BC 算法 运行 NW 次， 每 次 都 以 不 同 的 进程 p,(i, j=1, 2, 0, N) 作为 司 
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令 ， 我 们 可 以 从 BG 构造 对 IC 的 解决 方法 : 
IC,(v,, %, 0, oy) [j] = BG,(j, v) (i, j=l, 2, +, N) 
从 IC 构造 C: 如 果 大 部 分 进程 是 正确 的 ， 那 么 通过 运行 I 算法 能 够 在 每 个 进程 中 产生 一 个 值 
向 量 ， 然 后 在 该 向 量 值 上 使 用 一 个 适当 的 函数 可 以 获得 一 个 单一 的 值 : 
Ct, Up, t, vy) =majority(IC; (v, v2, +, wT], ++, oo)EN) (i=l, 26N) 

其 中 majority 如 前 定义 。 

AKC 构造 BG: 我 们 采用 如 下 的 方式 从 C 构造 BC 的 解决 方案 : 

。 司令 进程 户 把 它 提 议 的 值 *" 发 送 给 它 自己 以 及 其 余 的 进程 。 

。 所 有 的 进程 都 用 它们 收 到 的 那 组 值 w ， 思 ，…，ww 作为 参数 运行 C 算法 (其 中 p; 可 能 是 错误 的 ) 。 

© 最 后 得 到 BG,(j, v) =C, mp vy} Ciel, 2，…，N)。 

读者 可 以 证 明 在 每 一 个 例子 都 满足 终止 性 、 协 定性 和 完整 性 。Fisher [1983] 提供 了 关于 这 三 个 问 
题 的 更 多 细节 。 

在 存在 崩溃 故障 的 系统 中 ， 解 决 共识 问题 等 同 于 解决 可 靠 且 全 排序 组 播 ， 给 定 其 中 一 个 问题 解决 
方案 ， 就 可 以 解决 另 一 个 问题 。 使 用 一 个 可 靠 且 全 排序 组 播 操 作 RTO- multicast 实现 共识 问题 是 比较 简 
单 的 。 我 们 将 所 有 的 进程 组 成 一 个 组 g。 为 了 达成 共识 ， 每 个 进程 p; 运行 RTO- multicast (g, v;). 2 
后 每 个 进程 选择 d; = m;， 其 中 m, 是 p,RTO- delivers 的 第 一 个 值 。 终 止 性 是 利用 组 播 的 可 靠 性 得 到 的 。 
协定 性 和 完整 性 是 利用 组 播 的 可 靠 性 和 全 排序 得 到 的 。Chandra 和 Toueg [1996] 说 明了 如 何 从 共识 问 
题 中 得 到 可 靠 且 全 排序 组 播 。 


15. 5.2 同步 系统 中 的 共识 问题 


本 节 描 述 解决 同步 系统 中 共识 问题 的 算法 ， 该 算法 仅 使 用 了 一 个 基本 的 组 播 协议 。 算 法 假设 个 
HERA A f MEBS HOU 

为 了 达成 共识 ， 每 个 正确 的 进程 从 别 的 进程 那里 收集 提议 值 。 算 法 进行 f+1 个 回合 ， 在 每 个 回合 
中 ， 正 确 的 进程 B-multicast 值 。 根 据 假设 ， 最 多 有 .8 个 进程 可 能 崩溃 。 最 坏 的 情况 下 ，jJ 个 进程 都 崩溃 
了 ， 但 是 算法 还 是 能 够 保证 在 这 些 回 合 结束 后 ， 所 有 活 下 来 的 正确 的 进程 处 于 一 个 一 致 的 状态 。 

如 图 15-17 所 示 ， 该 算法 是 基于 Dolev 和 [peg 的 进程 的 算法 ， 算 法 进行 到 1 加 
Strong [1983] 的 算法 ， 其 表示 基于 Attiya 和 初始 化 ; 
Welch [1998]。 在 第 7 个 回合 开始 的 时 候 , 进 | auesi y raes; 
Ep 将 自己 知道 的 那 组 提议 值 存放 在 变量 | 在 第 : 轮 Asraf) 
Valuesir 中 。 每 个 进程 都 将 自己 前 一 个 回合 没 B-multicast <g,Values;-Values) y/ 仅 发 送 还 没有 发 送 的 值 
有 发 出 的 那个 值 集合 组 播 出 去 。 然 后 它 接收 从 Values;*': =Values'; 
别 的 进程 组 播 来 的 相似 的 消息 ， 并 且 记 录 新 的 While ERr 
值 。 虽 然 图 15-18 中 没有 提 到 最 大 时 限 , 但 是 | | 在 B-delver (万 ) 来 自 p 的 消息 时 : 
每 个 回合 持续 的 时 间 是 基于 每 个 正确 的 进程 组 Values *!:=Values” N ; 
播 消息 所 需要 的 最 长 时 间 来 确定 的 。 经 过 /+1 } 
个 回合 以 后 ， 每 个 进程 选择 它 所 收 到 的 最 小 值 | ED 轮 之 后 
作 为 它 的 决定 值 。 将 qd 赋 成 mainizma (Values) ; 

既然 系统 是 同步 的 ， 终 止 性 是 显然 的 。 为 图 15.17 同步 系统 中 的 共识 
了 检查 算法 的 正确 性 ， 我 们 必须 能 够 证 明 在 最 
后 一 个 回合 结束 的 时 候 ， 每 个 进程 达到 一 个 相同 的 值 集合 。 同 时 因为 进程 对 这 个 集合 应 用 了 minimum 
函数 ， 所 以 能 够 保证 协定 性 和 完整 性 。 

反之 ， 假 设 两 个 进程 的 最 终 值 集合 不 同 。 不 失 一 般 性 ， 某 个 正确 的 进程 p; 所 得 到 的 值 是 w， 另 一 
MERRE p GA) 得 到 的 值 不 是 v。 出 现 这 种 情况 唯一 的 解释 是 男 外 还 有 一 个 进程 ,假设 是 p, 
它 在 把 ov 传送 给 p 后 ， 还 没有 来 得 及 传送 给 p;,， 就 崩溃 了 。 同 样 道理 ， 在 前 一 个 回合 里 p, 得 到 值 > 而 
p 没有 收 到 值 的 唯一 解释 是 在 该 回合 中 发 送 v 的 进程 崩溃 了 。 以 此 类 推 ， 每 个 回合 至 少 一 个 进程 般 溃 。 
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但 是 我 们 假设 最 多 只 有 上 个 进程 甬 溃 ， 而 我 们 进行 了 +1 个 回合 。 这 样 我 们 就 得 出 了 矛盾 。 
事实 上 ， 不 管 如 何 构造 ， 如 果 要 在 至 多 /个 进程 般 溃 的 情况 下 仍然 能 够 达到 共识 ， 必 须 进 行 /+ 1 
轮 的 信息 交换 [Dolev and Strong 1983] 。 这 个 下 限 同 样 适 用 于 拜占庭 故障 [Fischer and Lynch 1980] 。 


15.5.3 同步 系统 中 的 拜占庭 将 军 问 题 


现在 我 们 讨论 同步 系统 的 拜占庭 将 军 问 题 。 与 前 一 节 描 述 的 共识 问题 不 同 的 是 ， 现 在 我 们 假设 进 
程 可 能 出 现 随机 故障 。 也 就 是 说 ， 一 个 故障 的 进程 可 能 在 任何 时 刻 发 送 任何 消息 ， 也 可 能 漏 发 消息 。 
假设 和 N 个 进程 中 最 多 有 J 个 会 发 生 故 障 。 正 确 的 进程 通过 超时 能 发 现 丢 失 了 信息 ,但 是 由 于 发 送 这 个 
消息 的 进程 可 以 沉默 一 段 时 间 再 发 送 消息 ， 因 此 这 个 正确 的 进程 并 不 能 断定 发 送 者 已 经 崩溃 。 

我 们 假设 在 每 对 进程 之 间 的 通信 通道 是 私有 的 。 如 果 一 个 进程 可 以 检查 其 他 进程 发 送 的 所 有 消息 ， 
那么 它 就 可 以 发 现 一 个 故障 进程 给 不 同 进程 发 送 的 消息 是 不 一 致 的 。 我 们 一 般 认 为 通道 是 可 靠 的 ， 也 
就 是 说 一 个 故障 进程 不 能 把 消息 插入 到 正确 进程 之 间 的 通信 通道 中 。 

Lamport ÆA [1982] 讨论 了 3 个 进程 相互 发 送 未 签名 消息 的 情景 。 他 们 证 明 ， 如 果 允 许 一 个 进程 
出 现 故 障 ， 那 么 将 无 法 保证 满足 拜占庭 将 军 问题 的 条 件 。 他 们 还 将 这 一 结果 推广 到 N<3f， 此 时 也 没 
有 解决 方法 。 稍 后 我 们 将 会 简要 说 明 这 个 结论 。 他 们 还 给 出 一 个 算法 ， 解 决 在 同步 系统 中 N=3f+1 的 
情况 下 未 签名 消息 (他 们 将 这 些 消息 称 为 “口头 的 ”) 的 拜占庭 将 军 问题 。 

3 个 进程 的 不 可 能 性 ”图 15-18 给 出 了 3 个 进程 中 只 有 一 个 进程 出 现 故障 的 两 个 场景 。 在 左边 的 场 
EF, PR p 有 故障 ; 对 于 右边 的 情况 ， 司 令 p 有 故障 。 图 15-18 中 给 出 了 两 个 回合 的 消息 交换 ; 司 
令 发 送 的 值 和 两 个 中 尉 相 互 发 送 的 值 。 数 字 前 级 表明 消息 的 来 源 ， 并 且 给 出 了 不 同 的 回合 数 。 我 们 可 
以 把 消息 中 的 “:” 读 成 “说 ”, 例如 “3:1:w” 读 成 “3 说 1 说 wu”。 

p AS) 





P2 





有 故障 的 进程 用 灰色 表示 
15-18 3 个 拜占庭 将 军 


在 左边 的 场景 下 ,司令 正确 地 将 同一 个 值 v 发 送 给 其 他 两 个 进程 ，p, 正确 地 将 这 个 消息 发 送 给 p o 
SRM, p 将 wz 发 送 给 p,。 在 这 个 阶段 p 知道 的 只 是 它 收 到 了 两 个 不 同 的 值 ， 它 并 不 能 判断 哪个 值 
是 司令 传 过 来 的 。 

在 右边 的 场景 下 ， 司 令 有 错误 ， 它 发 给 两 个 中 尉 的 值 是 不 同 的 。 户 发 送 了 它 收 到 的 值 * 后 ，p; 处 
于 和 前 一 种 情况 (ps 有 错时 ) 相同 的 状态 ， 它 也 收 到 两 个 不 同 的 值 。 

如 果 存 在 一 个 解决 办 法 ,那么 当 司 令 是 正确 的 时 候 ， 进 程 p, 必须 决定 值 :， 这 是 完整 性 条 件 所 要 
求 的 。 如 果 没 有 算法 能 够 区 分 这 两 种 情况 ， 那 么 p 必须 还 是 选择 右边 场景 下 司令 发 送 的 值 。 

对 ps 做 完全 相同 的 推理 ,假设 p 是 正确 的 。 由 于 对 称 性 ,我们 必须 得 出 结论 : ps 也 选择 司令 发 
来 的 值 作为 它 的 决定 值 。 但 这 就 违反 了 协定 性 条 件 〈 司 令 出 现 故障 的 时 候 对 不 同 的 进程 发 出 了 不 同 的 
值 ) 。 所 以 ， 不 存在 可 能 的 解决 办 法 。 

注意 ， 上 面 的 讨论 基于 我 们 的 直觉 ， 那 就 是 在 第 一 阶段 我 们 不 能 分 辨 哪个 进程 是 有 故障 的 ， 而 在 
以 后 我 们 也 无 法 增加 一 个 正确 进程 的 知识 。 我 们 可 以 证 明 这 一 直觉 的 正确 性 [Pease et al. 1980], 。 如 果 
将 军 们 能 够 对 他 们 发 出 的 消息 使 用 数字 签名 ， 那 么 3 个 将 军 中 有 一 个 出 现 故障 ， 也 能 实现 拜占庭 协定 。 

对 于 入 <3f 的 不 可 能 性 ”Pease 等 人 推广 了 3 个 进程 的 不 可 能 性 结论 ， 证 明 只 要 入 <3f， 就 不 可 能 
有 解决 方法 。 下 面 简要 给 出 证 明 。 假 设 在 Ns3f 时 有 一 个 解决 方案 。 我 们 假设 3 MER p, pr p 分 
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IRH n, m, n MAB, IEF n +n, +n, SNH n, m, mN., 我 们 进一步 假设 3 个 进程 中 有 
一 个 有 错误 。p, Pry Ps 中 正确 的 进程 模拟 正确 的 将 军 : 进程 在 内 部 模拟 内 部 将 军 之 间 的 交互 ， 并 且 
自己 的 将 军 还 会 给 被 其 他 进程 模拟 的 将 军 发 送信 息 。 错 误 的 进程 模拟 出 错 的 将 军 : 它 发 送 给 其 他 两 个 
进程 的 信息 可 能 是 伪造 的 。 既 然 V<3f 并 且 nn、m_、ns<N/3， 所 以 最 多 f 个 将 军 可 能 出 错 。 

由 于 假设 进程 运行 的 算法 是 正确 的 ， 因 此 模拟 能 够 终止 。 那 些 正确 的 将 军 (在 两 个 正确 的 进程 
H) 就 会 达成 一 致 并 且 满 足 完整 性 。 但 是 ， 这 就 是 说 3 个 进程 中 的 两 个 达到 了 共识 : 每 个 进程 对 由 所 
有 将 军 选 择 的 值 做 出 决定 。 这 就 与 前 面 的 3 个 将 军 中 有 一 个 是 有 错 的 不 可 能 性 结论 相 矛 盾 。 

对 一 个 有 错 进程 的 解决 方案 Pease 等 人 提出 了 一 个 算法 来 解决 N=3f+1 的 同步 系统 中 的 拜占庭 
将 军 问题 。 在 这 里 没有 足够 的 篇 幅 来 讨论 这 个 算法 , 但 是 我 们 将 给 出 N=4, f=1 的 算法 操作 ， 并 以 
N=4, f=1 来 说 明 该 算法 。 

正确 的 将 军 通 过 两 轮 消息 取得 一 致 

。 第 一 轮 ， 司 令 给 每 个 中 尉 发 送 一 个 值 。 

。 第 二 轮 ， 每 个 中 尉 将 收 到 的 值 发 送 给 与 自己 同 级 的 人 。 

每 个 中 尉 收 到 司令 发 来 的 一 个 值 ， 以 及 从 其 他 中 尉 来 的 N -2 个 值 。 如 果 司 令 有 错 ， 而 所 有 中 尉 都 
是 正确 的 ， 那 么 每 个 中 尉 都 会 收 到 司令 发 出 的 值 。 否 则 ， 一 个 中 尉 有 错 ， 他 的 其 他 同事 收 到 司令 发 来 
的 值 的 -2 份 副本 ， 以 及 有 错 的 中 时 发 来 的 一 个 值 。 

不 管 在 哪 种 情况 下 ， 每 个 正确 中 尉 只 需要 对 它们 收 到 的 值 集合 应 用 一 个 简单 的 majority 函数 。 由 于 
N24, (N-2)2>2, Alt, majority 函数 会 忽略 出 错 中 尉 发 来 的 值 ， 并 且 当 司令 是 正确 的 时 候 ， 该 函数 
能 产生 司令 发 来 的 值 。 

我 们 用 有 4 个 将 军 的 情况 说 明 上 述 算法 。 图 15-19 给 出 了 与 图 15-18 相似 的 两 个 场景 ,但 是 现在 有 
4 个 进程 ， 其 中 一 个 进程 是 有 错 的 。 像 在 图 15-18 中 一 样 ， 左 边 图 中 的 中 尉 p 是 有 错 的 ; 在 右边 的 图 
中 ， 司 令 p 是 有 错 的 。 





p CA) 


Ps 





有 故障 的 进程 用 灰色 显示 
图 15-19 4 个 拜占庭 将 军 


当 出 现 左 图 的 场景 时 ， 两 个 正确 的 中 尉 进程 在 决定 司令 的 值 时 达成 一 致 ; 
pı 决定 majority (v, u, v) =v 
P, 决定 majority (v, v, w) =v 
在 右 图 的 场景 中 ， 司 令 是 有 错 的 ， 但 是 正确 的 3 个 中 尉 进程 能 达成 一 致 ; 
Pr» Ps 和 ps RK majority (v, u, w) = 上 (特殊 值 上 代表 没有 占 多 数 的 值 存在 ) 
这 个 算法 考虑 了 一 个 错误 进程 可 能 漏 发 消息 的 情况 。 如 果 一 个 正确 的 进程 在 一 个 适当 的 时 间 范 围 
内 (系统 是 同步 的 ) 没有 收 到 一 个 消息 ， 它 就 认为 错误 进程 向 它 发 送 了 特殊 值 - ， 然 后 继续 处 理 。 
讨论 ”对 于 一 个 解决 拜占庭 将 军 〈 或 者 其 他 协定 问题 ) 的 算法 ， 我 们 通过 以 下 两 个 问题 来 度量 其 
效率 : 
。 进行 了 多 少 轮 消息 传递 ? (这 个 因素 影响 算法 终止 需要 的 时 间 。) 
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。 发 送 了 多 少 消息 ， 消 息 的 长 度 是 多 少 ? (这 个 因素 度量 带宽 的 利用 ， 并 且 会 影响 执行 的 时 间 。) 

一 般 情况 下 (fe1), Lamport 等 人 的 算法 用 于 未 签名 的 消息 传送 时 ,需要 操作 /+1 轮 。 在 每 轮 中 ， 
每 个 进程 发 送 它 在 前 一 轮 中 收 到 的 其 他 进程 发 来 的 值 的 一 个 子 集 。 算 法 代价 很 高 ， 它 需要 发 送 
O(N") 条 信息 。 

Fischer 和 Lynch [1982] 证 明 ， 如 果 人 允许 出 现 拜 占 庭 故 障 〈 因 而 也 包括 拜占庭 将 军 问 题 ， 见 
15.5.1 节 ) ,那么 任何 确定 性 的 解决 共识 问题 的 算法 至 少 需要 f+1 轮 消息 传递 。 所 以 在 这 个 方面 ， 没 
有 算法 能 比 Lamport 等 人 的 算法 执行 更 快 。 但 是 可 以 改善 消息 的 复杂 度 ， 例 如 Caray 和 Moses [1993 ] 
做 的 改进 。 

有 些 算法 〈 例 如 Dolev 和 Strong [1983] 的 算法 ) 对 消息 进行 签名 。Dolev 和 Strong 的 算法 也 需要 
进行 f+1 轮 ， 但 是 发 送 消息 的 数量 仅 是 O(N ) 。 

由 于 算法 的 复杂 性 和 代价 ， 因 此 建议 只 在 安全 威胁 很 严重 的 地 方 使 用 这 些 算法 。 如 果 威 胁 来 自 硬 
件 错误 ， 那么 出 现 随 机 行为 错误 的 可 能 性 是 很 小 的 。 如 果 解 决 方案 所 基于 的 错误 模型 的 知识 越 详细 ， 
那么 可 以 得 到 的 解决 方案 更 有 效 [ Barborak et al. 1993 ] 。 如 果 威 胁 来 自 于 恶意 的 用 户 ， 那 么 受到 威胁 
的 系统 更 可 能 使 用 数字 签名 ， 一 个 不 使 用 签名 的 解决 方案 是 不 合 实际 的 。 


15. 5.4 异步 系统 的 不 可 能 性 


现在 我 们 已 经 提供 了 同步 系统 中 共识 和 拜占庭 将 军 问 题 的 解决 方案 〈 由 此 可 推导 出 交互 一 致 性 的 
解决 方案 ) 。 然 而 这 些 算 法 都 依赖 于 系统 是 同步 的 。 算 法 假定 消息 交换 按 轮 进 行 ， 进 程 有 超时 机 制 ， 可 
以 因为 超过 最 大 延迟 而 认为 出 错 的 进程 在 那 轮 没 有 发 送 消息 。 

Fischer 等 人 [1985] 证 明 在 一 个 异步 系统 中 ， 即 使 是 只 有 一 个 进程 出 现 朋 溃 故 障 ， 也 没有 算法 能 
够 保证 达到 共识 。 因 为 在 一 个 异步 系统 中 ， 进 程 可 以 随时 发 出 响应 的 消息 ， 所 以 没有 办 法 分 辨 一 个 进 
程 是 速度 很 慢 还 是 已 经 崩溃 。 他 们 的 证 明显 示 了 进程 的 执行 总 是 有 中 断 了 再 延续 的 情况 ， 这 阻止 了 进 
程 达到 共识 。 详 细 的 证 明 已 经 超出 本 书 的 范围 ， 这 里 不 再 细 述 。 

从 Fischer 等 人 的 结论 中 我 们 立刻 可 以 得 到 : 在 异步 系统 中 ， 我 们 没有 可 以 确保 解决 拜占庭 将 军 问 
题 、 交 互 一 致 性 问题 或 者 全 排序 和 可 靠 组 播 问题 的 方法 。 如 果 有 这 样 的 解决 办 法 ， 根 据 15. 5. 1 节 的 结 
论 ， 我 们 就 会 有 共识 问题 的 解决 办 法 一 一 这 与 不 可 能 性 结论 是 相 矛 盾 的 。 

注意 ,我 们 在 不 可 能 性 结论 中 使 用 了 “确保 ”这 个 词 。 这 并 不 是 说 在 分 布 式 系统 中 ， 如 果 有 一 个 
进程 出 现 了 错误 ， 进 程 就 永远 不 可 能 达到 共识 。 它 允许 我 们 达到 共识 的 概率 大 于 0， 这 与 实际 相符 合 。 
例如 ， 尽 管 我 们 的 系统 通常 是 异步 的 ,但 是 事务 系统 多 年 来 一 直 能 达到 共识 。 

绕 过 不 可 能 性 结论 的 办 法 是 考虑 部 分 同步 系统 〈partially synchronous system) 。 部 分 同步 系统 比 同 
步 系统 对 同步 性 要 弱 ， 可 以 作为 实际 应 用 的 系统 的 模型 ;但 其 同步 性 又 比 异 步 系 统 要 强 ， 使 得 共识 问 
题 能 够 被 解决 [Dwork et al . 1988 ] 。 这 个 方法 的 介绍 同样 超出 了 本 书 的 范围 。 我 们 将 简要 介绍 绕 过 不 
可 能 性 结论 的 三 个 方法 : 故障 屏 项 、 利 用 故障 检测 器 达到 共识 、 随 机 化 进程 的 行为 。 

故障 屏蔽 ”第 一 种 完全 避免 不 可 能 性 结论 的 技术 是 屏 藏 发 生 的 所 有 进程 故障 (2.4.2 节 有 故障 屏 
项 的 介绍 ) 。 例 如 ， 事 务 系统 使 用 持久 存储 ， 它 能 够 从 崩溃 中 恢复 。 如 果 一 个 进程 崩溃 ， 它 会 被 重启 
(自动 重启 或 者 由 管理 员 重启 ) 。 进 程 在 程序 的 关键 点 的 持久 存储 中 保留 了 足够 多 的 信息 ， 以 便 在 骨 溃 
和 重启 时 能 够 利用 这 些 数据 正确 地 继续 被 中 断 的 工作 。 换 句 话说 ， 它 能 够 像 正确 的 进程 那样 工作 ， 只 
是 有 时 候 它 需要 很 长 时 间 来 执行 一 个 处 理 。 

当然 ， 故 障 屏蔽 一 般 可 应 用 到 系统 设计 中 。 第 16 章 讨论 了 事务 系统 如 何 利 用 持久 存储 。 第 18 章 
描述 了 如 何 利用 软件 组 件 的 复制 来 屏蔽 进程 故障 。 

使 用 故障 检测 器 达到 共识 ” 另 一 种 绕 过 不 可 能 性 结论 的 方法 是 使 用 故障 检测 器 。 一 些 实际 的 系统 
使 用 “完美 设计 ”的 故障 检测 器 来 达到 共识 。 实 际 上 ， 在 一 个 仅仅 依靠 消息 传递 工作 的 异步 系统 中 ， 
没有 故障 检测 器 是 真正 达到 完美 的 。 然 而 ， 进 程 可 以 协商 后 认为 一 个 超过 指定 时 间 没 有 反应 的 进程 已 
经 出 错 了 。 一 个 没有 响应 的 进程 未 必 已 经 出 错 了 ， 但 是 其 余 的 进程 认为 它 已 经 出 错 了 。 它 们 将 接 下 来 
收 到 的 所 有 从 出 错 的 进程 发 来 的 消息 全 部 抛弃 ， 从 而 把 这 个 故障 变 成 “失败 - 沉默 ” 。 换 句 话说， 我 
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们 已 经 有 效 地 将 一 个 异步 系统 转化 为 一 个 同步 系统 。 这 项 技术 被 应 用 在 SIS 系统 中 [Birman 1993], 

该 方法 要 求 故障 检测 器 是 精确 的 。 如 果 故 障 检测 器 不 精确 的 话 ， 系 统 在 工作 中 可 能 放弃 一 个 成 员 ， 
而 实际 上 这 个 成 员 为 系统 的 有 效 性 做 出 贡献 。 遗 憾 的 是 ， 让 故障 检测 器 保证 合理 的 精确 性 需要 设 定 很 
长 的 超时 值 ， 这 就 需要 进程 等 待 一 个 相对 较 长 的 时 间 〈 并 且 不 能 执行 有 用 的 工作 ) 才能 得 出 一 个 进程 
已 经 出 错 的 结论 。 这 个 方法 还 会 引起 了 另 一 个 问题 一 一 网 络 分 区 ， 我 们 将 在 第 18 章 讨 论 这 个 问题 。 

一 个 完全 不 同 的 方法 是 使 用 “不 完美 ”的 故障 检测 器 ， 这 种 方法 允许 被 怀疑 的 进程 正确 行动 而 不 
是 排除 它 来 达到 共识 。 为 了 解决 在 异步 系统 中 的 共识 问题 ，Chanadra 和 Toueg [1996] 分 析 了 一 个 故障 
检测 器 必须 拥有 的 属性 。 他 们 证 明 ， 即 使 是 使 用 不 可 靠 的 故障 检测 器 ， 只 要 通信 是 可 靠 的 ， 骨 沉 的 进 
程 不 超过 W2 ， 那 么 异步 系统 中 的 共识 问题 是 可 以 解决 的 。 我 们 称 能 够 实现 这 个 目标 的 最 弱 的 故障 检 
测 器 (eventually weak failure detector) 为 最 终 弱 故 障 检测 器 。 该 检测 器 具有 如 下 性 质 : 

RRB LS (eventually weakly complete): 每 一 个 错误 进程 最 终 常 常 被 一 些 正 确 进程 怀疑 。 

RABMAY (eventually weakly accurate); 经 过 某 个 时 刻 后 ， 至 少 一 个 正确 的 进程 从 来 没有 被 其 
他 正确 的 进程 所 怀疑 。 

Chandra 和 Toueg 证 明 ， 在 异步 系统 中 ， 我 们 不 能 只 依靠 消息 传递 来 实现 一 个 最 终 弱 故障 检测 器 。 
但 是 ， 我 们 在 15. 1 节 中 描述 了 一 个 基于 消息 的 故障 检测 器 ， 它 能 够 根据 观察 到 的 响应 时 间 调 节 它 的 超 
时 值 。 如 果 一 个 进程 或 者 一 个 到 检测 器 的 连接 很 慢 ， 那 么 超时 值 就 会 增加 ， 那 么 错误 地 怀疑 一 个 进程 
的 情况 将 变 得 很 少 。 在 很 多 实际 系统 中 ， 从 实用 目的 看 ， 这 个 算法 与 最 终 弱 故 障 检 测 器 相当 相似 。 

Chandra 和 Toueg 的 共识 算法 人 允许 被 错误 怀疑 的 进程 继续 它们 正常 的 操作 ， 并 且 人 允许 怀疑 它们 的 进 
程 接受 它们 发 出 的 消息 并 正常 地 处 理 。 虽 然 这 使 得 应 用 程序 员 的 工作 变 得 复杂 ， 但 是 这 样 做 的 好 处 在 
F: 正确 的 进程 不 会 被 错误 好 排斥 出 去 而 造成 浪费 。 而 且 ， 与 ISIS 方法 相 比 ， 故 障 检测 的 超时 值 可 以 
不 必 那 么 保守 。 

使 用 随机 化 达到 共识 Fischer 等 人 的 结论 依赖 于 我 们 考虑 的 “敌人 ”是 什么 。 这 是 一 个 “人 物 ” 
(实际 上 是 一 个 随机 事件 的 集合 ) ， 它 能 够 利用 异步 系统 的 现象 来 阻止 进程 达到 共识 。 敌 人 操纵 网 络 来 
延迟 消息 以 便 使 它们 在 错误 的 时 刻 到 达 ， 或 者 减缓 或 加 速 进程 ， 使 得 当 进 程 收 到 一 个 消息 的 时 候 处 于 
错误 的 状态 。 

第 3 种 解决 不 可 能 性 结论 的 技术 是 引入 一 个 关于 进程 行为 的 可 能 性 元 素 ， 使 得 敌人 不 能 有 效 地 实 
施 它们 的 阻碍 战术 。 在 有 的 情况 下 还 是 不 能 达到 共识 ,但 是 这 个 方法 使 得 进程 能 够 在 一 个 有 限 的 期 望 
(expected) 时 间 内 达到 共识 。Canetti 和 Rabin [1993] 提出 了 一 个 概率 算法 可 以 解决 共识 甚至 拜占庭 
故障 问题 。 


15.6 小 结 


本 章 开 始 讨 论 了 进程 在 互 斥 条 件 下 访问 共享 资源 的 必要 性 。 锁 并 不 总 是 由 管理 共享 资源 的 服务 器 
实现 的 ， 所 以 需要 一 个 单独 的 分 布 式 互 斥 服务 。 我 们 考虑 了 3 种 实现 互 斥 的 算法 : 一 种 使 用 中 央 服 务 
器 的 算法 ,一 个 基于 环 的 算法 以 及 一 个 使 用 逻辑 时 钟 的 基于 组 播 的 算法 。 像 我 们 描述 的 那样 ， 它 们 中 
没有 一 个 能 够 经 受 住 故 障 ， 虽 然 经 过 修改 它们 能 够 容忍 一 些 错误 。 

接 下 来 ， 本 章 考 虑 了 一 个 基于 环 的 算法 和 霸道 算法 ， 它 们 共同 的 目的 是 从 一 个 给 定 的 集合 中 选 出 
唯一 的 一 个 进程 一 一 即使 同时 发 生 几 个 选举 。 例 如 ， 在 主 时 间 服 务 器 或 者 锁 服务 器 出 放 障 时 ， 和 霸道 算 
法 可 用 于 选取 一 个 新 的 服务 器 。 

紧 接 着 的 一 节 描述 了 组 播 通信 中 的 协调 和 协定 。 讨 论 了 可 靠 组 播 〈( 正 确 的 进程 要 对 传递 的 消息 集 


合 达 成 一 致意 见 ) 以 及 具有 FIFO 排序 、 因 果 排 序 、 全 排序 的 组 播 。 我 们 给 出 了 可 靠 组 播 的 算法 ， 还 给 ， 


出 了 所 有 3 种 传递 顺序 的 算法 。 

最 后 我 们 描述 了 共识 问题 、 拜 占 庭 将 军 问题 以 及 交互 一 致 性 问题 。 我 们 定义 了 它们 的 解决 方案 的 
条 件 ， 并 且 证 明了 这 些 问题 之 间 的 关系 一 一 包括 共识 和 可 靠 、 全 排序 组 播 之 间 的 关系 。 

在 同步 系统 中 可 以 解决 上 述 问题 ， 我 们 描述 了 一 些 算法 。 实 际 上 ， 即 使 可 能 出 现 随机 故障 ， 解 决 
的 方法 也 是 存在 的 。 我 们 大 致 描述 了 Lamport 等 的 关于 拜占庭 将 军 问题 的 解法 的 一 部 分 内 容 。 最 近 的 
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算法 有 更 低 的 复杂 度 ， 但 是 从 原理 上 看 ， 没 有 一 个 算法 能 比 该 算法 采用 的 f+1 轮 处 理 更 好 ， 除 非 消息 
采用 数字 签名 。 

本 章 最 后 描述 了 Fischer 等 人 的 基本 结论 ， 即 关于 异步 系统 中 保证 共识 的 不 可 能 性 。 我 们 讨论 了 虽 
然 有 这 样 的 结论 ， 异 步 系 统 还 能 够 达成 一 致 的 方法 。 


练习 


15.1 使 用 一 个 不 可 靠 的 通信 通道 ， 有 没有 可 能 实现 一 个 可 靠 的 或 者 不 可 靠 GERE) 的 故障 检测 器 ? 

(第 632 页 ) 
15.2 如果 所 有 的 客户 进程 都 是 单线 程 的 ， 那 么 用 来 按 发 生 在 先 顺 序 指定 位 置 的 互 斥 条 件 ME3 是 否 有 用 ? 

(第 635 页 ) 
15.3 ”根据 同步 延 时 给 出 计算 互 斥 系统 最 大 吞吐 量 的 公式 。 (第 635 页 ) 
15.4 在 用 于 互 斥 的 中 央 服 务 器 算法 中 ， 描 述 使 得 两 个 请 求 不 是 按照 发 生 在 先 顺 序 处 理 的 情景 。 

(第 636 页 ) 
15.5 ”修改 用 于 互 斥 的 中 央 服 务 器 算法 ， 使 之 能 够 处 理 任 何 客户 〈 在 任何 状态 ) 的 裔 省 故障 ， 假 设 服务 器 

是 正确 的 ， 并 且 有 一 个 可 车 的 故障 检测 器 。 讨 论 这 个 系统 是 否 能 够 容错 。 如 果 拥 有 令 牌 的 客户 被 错 


误 地 怀疑 为 出 了 故障 ， 会 发 生 什么 样 的 情况 ? (第 636 页 ) 
15.6 ”就 基于 环 的 算法 ， 给 出 一 个 执行 的 例子 ， 用 以 说 明 进程 不 必 以 发 生 在 先 顺序 授权 进入 临界 区 。 
(第 637 页 ) 


15.7 在 某 个 系统 中 ， 每 个 进程 常常 多 次 使 用 一 个 临界 区 后 另 一 个 进程 才 需 要 访问 。 解 释 为 什么 Ricart 和 
Agrawala 的 基于 组 播 的 互 斥 算法 在 这 种 情况 下 效率 很 低 ， 描 述 如 何 提高 它 的 性 能 。 你 的 修改 是 否 满 


足 活 性 条 件 ME2? (第 639 页 ) 
15.8 在 霸道 算法 中 ,恢复 进程 启动 一 次 选举 ， 并 且 如 果 它 比 当 前 的 协调 者 进程 有 更 高 的 标识 符 ， WAE 
就 成 为 新 的 协调 者 。 这 是 算法 所 必需 的 吗 ? (第 644 页 ) 

15.9 ”如 何 修改 霸道 算法 以 处 理 两 种 情况 ， 暂 时 的 网 络 分 区 (通信 变 慢 ) 以 及 处 理 变 慢 。 
(第 646 页 ) 
15.10 设计 一 个 在 IP 组 播 上 进行 基本 组 播 的 协议 。 (第 647 页 ) 
15. 11 ”对 开放 组 的 情况 ， 怎 样 修改 可 靠 组 播 的 完整 性 、 协 定性 、 有 效 性 定义 。 (第 647 页 ) 


15.12 在 图 15-9 中 ， 如 果 颠 倒 以 下 两 个 语句 的 顺序 :“R-deliver m” 和 “if (q ¥ p) then B-multicast (g, 
m); end if” ， 那 么 算法 将 不 再 满足 统一 的 协定 。 基 于 IP 组 播 的 可 靠 组 播 算 法 是 否 满足 统一 的 协定 ? 


(第 648 页 ) 
15.13 ”解释 为 什么 基于 下 组 播 的 可 靠 组 播 算法 不 适用 于 开放 组 也 不 适用 于 封闭 组 。 给 定 任何 一 个 用 于 封 
闭 组 的 算法 ， 我 们 如 何 从 它 构造 一 个 用 于 开放 组 的 算法 ? (第 649 页 ) 


15.14 解释 如 何 修改 正 组 播 上 的 可 靠 组 播 算法 ， 从 而 消除 保持 队列 ， 这 样 ， 收 到 的 非 重复 的 消息 能 马上 
被 传递 ， 但 没有 任何 排序 保证 。 提 示 : 用 集合 而 不 是 序号 来 表示 到 目前 为 止 已 经 被 传递 的 消息 。 

(第 649 页 ) 

15.15 在 基于 也 组 播 的 可 靠 组 播 协 议 中 ,为 了 达到 有 效 性 和 协定 性 做 了 一 些 不 合 实际 的 假设 ,说 明 如 何 

”解决 这 些 假设 。 提 示 : 当 一 个 消息 被 传递 后 ， 增 加 一 个 删除 保留 消息 的 规则 ; 考 天 增加 一 个 旺 “ 心 

跳 ” 消 息 ， 这 个 消息 永远 不 会 发 给 应 用 ， 而 是 当 应 用 没有 消息 要 发 送 的 时 候 由 协议 发 送 。 

(第 649 页 ) 

15.16 在 基于 FIFO 顺序 的 组 播 中 ,考虑 同一 个 信息 源 发 送 两 个 信息 给 两 个 有 重 登 的 组 ， 以 及 一 个 处 于 两 

个 组 的 交集 中 的 进程 ， 证 明 这 个 算法 不 适用 于 有 重合 组 。 修 改 该 算法 使 之 能 用 于 重 登 组。 提示 : 进 


程 应 该 在 它们 的 消息 中 包括 发 给 所 有 组 的 消息 的 最 新 顺序 号 。 (第 654 页 ) 
15.17 证明 : 如 果 我 们 在 图 15-13 所 示 的 基本 组 播 算法 中 是 FIFO JFR, 那么 得 到 的 全 排序 组 播 也 是 因果 
排序 的 。 任 何 一 个 为 FIFO 序 并 且 是 全 排序 的 组 播 是 不 是 也 是 因果 序 的 ? (第 655 页 ) 
15.18 ”考虑 如 何 修改 因果 序 的 组 播 协议 来 处 理 重 登 组 。 (第 657 页 ) 


15.19 ”在 讨论 Maekawa 的 互 斥 算法 的 时 候 ， 我 们 给 出 了 3 个 进程 的 3 个 子 集 可 能 导致 死 锁 的 例子 。 使 用 这 
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15. 23 
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些 子 集 作 为 组 播 的 组 ， 证 明 为 什么 进程 对 的 全 排序 不 一 定 是 无 环 的 。 (第 658 页 ) 
使 用 一 个 可 靠 组 播 和 一 个 解决 共识 问题 的 方法 ,在 同步 系统 中 建立 一 个 可 靠 的、 全 排序 组 播 。 
(第 659 页 ) 


从 可 靠 全 排序 组 播 〈 涉 及 选择 第 一 个 可 以 传递 的 值 ) 的 解决 方案 可 以 得 到 共识 的 解决 方法 。 从 基 
本 原理 解释 ， 为 什么 在 一 个 异步 系统 中 ， 我 们 不 能 从 可 靠 的 但 不 是 全 排序 的 组 播 服务 以 及 majority 
函数 得 到 共识 的 解决 方案 。( 注意， 如 果 我 们 能 够 做 到 ， 就 会 与 Fischer 等 的 不 可 能 性 结论 相 矛 盾 。) 
提示 : 考虑 速度 慢 的 或 者 出 故障 的 进程 。 (第 663 页 ) 
考虑 在 图 15-17 中 给 出 的 实现 同步 系统 中 的 共识 的 算法 ， 采 用 如 下 完整 性 定义 ; 

如 果 所 有 进程 〈 不 管 正确 与 否 ) 提出 相同 的 值 ， 那 么 在 决定 状态 的 任何 正确 的 进程 都 将 会 选择 该 
值 。 现 在 考虑 一 个 应 用 程序 ， 其 中 正确 运行 的 进程 可 能 会 提出 不 同 的 结果 ， 例 如 通过 运行 不 同 的 算 
法 来 决定 在 控制 系统 的 操作 中 应 该 采取 何 种 行动 。 请 提出 一 个 合适 方案 对 完整 性 定义 进行 修改 ， 从 
而 改变 这 个 算法 。 (第 664 页 ) 
在 3 个 将 军 的 拜占庭 将 军 问题 中 ， 证 明 如 果 将 军 对 消息 进行 签名 ， 那 么 在 一 个 将 军 有 问题 的 情况 下 
也 可 以 达成 协定 。 (第 665 页 ) 
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事务 和 并 发 控制 


本 章 将 讨论 事务 和 并 发 控制 在 服务 器 管理 共享 对 象 时 的 应 用 。 

事务 定义 了 一 个 服务 器 操作 序列 ， 由 服务 只 保 证 这 些 操作 序列 在 多 个 客户 并 发 访问 和 服务 器 出 现 
故障 情况 下 的 原子 性 。 报 套 事务 定义 了 若干 事务 之 间 的 能 套 结 构 ， 它 们 因为 具有 更 高 的 并 发 度 ， 因 而 
在 分 布 系统 中 非常 有 用 。 

所 有 的 并 发 控制 协议 都 是 基于 串 行 相等 的 标准 ， 它 们 都 源 于 用 来 解决 操作 冲突 的 规则 。 本 章 描述 
了 三 种 方法 : 

© 锁 用 于 在 多 个 事务 访问 同一 个 对 象 时 根据 这 些 操作 访问 同一 对 象 的 先后 次 序 给 事务 排序 。 

。 乐观 并 发 控制 允许 事务 一 直 执 行 ， 直 到 它们 准备 提交 为 止 ， 只 是 在 提交 时 通过 检查 来 确定 已 执 

行 的 操作 是 否 存在 冲突 。 
se 时 间 截 排序 利用 时 间 戳 将 访问 同一 对 象 的 事务 根据 它们 的 起 始 时 间 进 行 排序 。 


16.1 简介 


事务 的 目标 是 在 多 个 事务 访问 对 象 以 及 服务 器 面临 故障 的 情况 下 ， 保 证 所 有 由 服务 器 管理 的 
对 象 始终 保持 一 个 一 致 的 状态 。 第 2 章 介绍 了 分 布 式 系统 的 故障 模型 。 事 务 能 够 处 理 进 程 的 崩溃 
故障 和 通信 的 遗漏 故障 ,但 不 能 处 理 任何 随机 (或 拜占庭 ) 行为 。16. 1.2 节 将 给 出 事务 的 故障 
模型 。 

能 够 在 服务 器 裔 省 后 恢复 的 对 象 称 为 可 恢复 (recoverable) 对 象 。 通常 这 些 对 象 存储 在 挥发 性 存 
储 ( 例 如 RAM) 或 持久 存储 【例如 硬盘 ) 中 。 即 使 对 象 存放 在 挥发 性 存储 中 ， 服 务 器 仍然 可 以 利用 
持久 存储 来 保存 足够 多 的 对 象 状 态 信息 ， 以 便 在 服务 器 进程 般 溃 后 能 够 恢复 这 些 对 象 。 这 使 得 服务 器 
能 保证 对 象 是 可 恢复 的 。 事 务 是 由 客户 定义 的 针对 服务 器 对 象 的 一 组 操作 ， 它 们 组 成 一 个 不 可 分 割 的 
单元 ， 由 服务 器 执行 。 服 务 器 必须 保证 或 者 整个 事务 被 执行 并 将 执行 结果 记录 到 持久 存储 中 ， 或 者 在 
出 现 故障 时 ， 能 完全 消除 这 些 操作 的 所 有 影响 。 第 17 章 将 讨论 涉及 几 个 服务 器 的 事务 的 相关 问题 ， 特 
别 是 如 何 决定 一 个 分 布 式 事务 的 结果 。 本 章 重点 研究 单 服务 器 上 的 事务 。 从 其 他 客户 事务 的 角度 而 言 ， 
一 个 客户 的 事务 也 被 认为 是 不 可 分 割 的 ， 因 为 一 个 








deposit (amount) 


事务 中 的 操作 不 能 观察 到 另 一 个 事务 中 的 操作 的 部 向 账户 存 amount 数 量 的 钱 
分 结果 。16. 1.1 节 将 介绍 对 象 的 简单 同步 访问 | withdraw (amount) 

16. 2 节 将 介绍 事务 ， 事 务 需 要 防止 客户 之 间 冲 突 的 Pie 
更 高 级 的 技术 。16.3 HTK ES 16. 4 节 ~ 18 EERAFAA 

16. 6 节 分 别 讨论 单 服务 器 上 的 事务 的 三 种 并 发 控制 setBalance (amount) 

方法 ， 即 锁 、 乐 观 并 发 控制 和 时 间 徐 排序。 第 17 章 将 账户 余额 设置 成 amount 
进一步 讨论 如 何 将 这 些 方法 加 以 扩展 , 运用 到 多 个 

服务 器 上 的 事务 中 。 Branch 接 口中 的 操作 


为 了 方便 本 章 讨论 ， 我 们 使 用 了 一 个 银行 的 例 
子 ， 如 图 16-1 所 示 。 每 个 银行 账户 由 一 个 远程 对 象 
表示 ， 它 支持 一 个 Account 接口 ， 该 接口 提供 存款 、 
取款 、 查 询 和 设置 账面 余额 等 操作 。 银 行 分 行 用 一 


create (name) —account 
用 给 定 用 户 名 创建 一 个 新 账户 
lookUp (name) —account 
根据 给 定 用 户 名 查找 账户 ， 并 返回 该 账户 的 一 个 引用 


branchTotal ()—>amount 


个 远程 对 象 表 示 ， 其 接口 为 Branch， 该 接口 提供 创 
建新 账户 、 通 过 名 字 查 找 账户 和 查询 分 行 总 余额 等 
操作 。 





account 接 口 和 Branch 接 口 的 操作 
图 16-1 Account 接口 的 操作 





| 返回 该 银行 分 理 处 的 所 有 账户 余额 的 总 数 
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16.1.1 简单 的 同步 机 制 (无 事务 ) 


本 章 涉及 的 一 个 主要 问题 是 如 果 不 仔细 设计 服务 器 ， 不 同 客户 执行 的 操作 有 时 会 相互 冲突 。 这 种 
冲突 会 导致 对 象 产 生 不 正确 的 值 。 本 节 先 讨论 没有 事务 时 客户 操作 如 何 同步 。 

服务 器 上 的 原子 操作 ”从 本 书 前 面 的 章节 ， 我 们 已 经 看 到 ， 使 用 多 线程 可 以 提高 服务 器 的 性 能 。 
我 们 也 注意 到 使 用 多 线程 能 够 让 不 同 的 客户 并 发 执行 并 且 访 问 同一 个 对 象 。 因 此 ， 对 象 应 该 设计 成 支 
持 多 线程 的 上 下 文 环 境 。 以 银行 为 例 ， 如 果 deposit 方法 和 withdraw 方法 在 设计 时 没有 考虑 应 用 于 多 线 
程 程序 中 ， 那 么 当 多 个 线程 并 发 执行 这 些 方法 时 ， 可 能 会 导致 这 些 方法 的 交织 执行 ， 从 而 产生 奇怪 的 
账户 对 象 数据 。 

第 6 章 引 入 的 synchronized 关键 字 是 应 用 在 Java 方法 中 用 以 保证 一 次 只 能 有 一 个 线程 访问 对 象 。 在 
我 们 的 例子 中 ， 实 现 Account 接口 的 类 可 以 将 方法 声明 成 同步 的 。 例 如 : 


public synchronized void deposit (int amount) throws RemoteException | 
1 将 amount 数量 的 钱 加 入 账户 余额 


i 

当 一 个 线程 调用 某 个 对 象 的 同步 方法 时 ， 该 对 象 在 调用 期 间 被 一 直 锁 住 ， 这 时 如 果 另 一 个 线程 也 
调用 该 同步 方法 ， 那 么 该 线程 将 被 阻塞 ， 直 到 相应 的 锁 被 释放 为 止 。 这 种 形式 的 同步 将 线程 的 执行 分 
散 到 不 同 的 时 间 中 ， 从 而 保证 对 一 个 对 象 的 实例 变量 的 访问 一 致 性 。 如 果 没 有 同步 机 制 ， 那 么 两 个 不 
同 的 deposit 方法 调用 可 能 在 对 方 未 更 新 前 读 取 账 户 余额 一 一 导致 不 正确 的 数据 。 因 此 ， 应 该 同步 所 有 
访问 会 发 生变 化 的 实例 变量 的 方法 。 

免 受 其 他 线程 中 执行 的 并 发 操作 干扰 的 操作 称 为 原子 操作 (atomic option), Java 语言 中 的 同步 方 
法 是 实现 原子 操作 的 途径 之 一 。 在 其 他 多 线程 服务 器 的 编程 环境 中 ， 为 了 保证 对 象 的 一 致 性 ， 对 象 上 
的 操作 仍然 应 该 是 原子 操作 。 通 过 互 斥 机 制 ， 例 如 mutex， 可 实现 这 一 点 。 

通过 服务 器 操作 的 同步 加 强 客户 协同 客户 可 以 将 服务 器 作为 一 种 共享 资源 的 设施 。 一 些 客户 调 
用 更 新 服务 器 上 对 象 的 操作 ， 而 另 一 些 客户 调用 方法 来 访问 对 象 便 可 实现 上 述 目 的 。 上 述 同 步 访问 对 
象 的 机 制 提供 了 大 多 数 应 用 中 所 需要 的 东西 一 一 避免 了 线程 相互 干扰 。 但 是 ， 某 些 应 用 需要 线程 间 相 
互通 信 的 机 制 。 

例如 ， 会 出 现 这 种 情况 : 某 个 客户 的 操作 要 等 到 另 一 个 客户 操作 结束 后 才能 完成 。 一 个 典型 的 例 
子 是 某 些 客户 是 生产 者 而 另 一 些 客户 是 消费 者 一 一 消费 者 在 生产 者 提供 更 多 的 所 需 商 品 前 必须 等 待 。 
这 种 情况 在 客户 共享 某 种 资源 时 也 会 出 现 一 一 请 求 资 源 的 客户 必须 等 待 其 他 客户 释放 资源 。 在 本 章 的 
后 面部 分 ， 我 们 还 会 看 到 ， 在 用 锁 或 时 间 截 进行 事务 并 发 控制 时 也 会 有 类 似 的 情况 。 

第 6 章 介绍 的 Java notify 和 wait 方法 允许 线程 以 一 种 能 够 解决 上 述 问题 的 方式 相互 通信 。 这 两 个 方 
法 必须 用 于 对 象 的 同步 方法 中 。 当 一 个 线程 调用 某 个 对 象 的 wait 方法 后 ， 该 线程 被 挂 起 并 允许 其 他 线 
程 执行 该 对 象 的 方法 。 线 程 通过 调用 notify 方法 通知 等 待 该 对 象 的 线程 它 已 改变 了 该 对 象 的 一 些 数据 。 
在 线程 等 待 时 ， 对 对 象 的 访问 仍 是 原子 的 ， 因 为 调用 wait 的 线程 把 放弃 锁 和 挂 起 自身 作为 单个 原子 动 
作 。 当 线程 被 通知 重新 开始 时 ， 它 需要 重新 获得 对 象 上 的 锁 ， 继 续 wait 之 后 的 执行 。 而 调用 notify 的 
线程 〈 从 一 个 同步 方法 内 ) 在 它 执行 完 当 前 方法 后 才 会 释放 对 象 锁 。 

现在 考虑 共享 对 象 Queue 的 实现 ，Queue 有 两 个 方法 : first 方法 用 于 删除 并 返回 队列 中 的 第 一 个 对 
象 ，append 方法 用 于 将 一 个 给 定 对 象 放 到 队列 尾部 。first 方法 首先 检查 队列 是 否 为 空 ， 如 果 队 列 为 空 
则 调用 该 队列 的 wait 方法 。 因 此 在 队列 为 空 时 ， 某 个 客户 调用 first 方法 将 不 会 得 到 应 答 ， 必 须 等 待 其 
他 客户 向 队列 添加 内 容 一 一 append 方法 在 将 对 象 加 入 队列 时 会 调用 notify ， 这 使 得 等 待 队列 对 象 的 线程 
能 继续 执行 ， 并 将 队列 中 的 第 一 个 对 象 返回 给 客户 。 在 线程 通过 wait 和 notify 同步 对 象 操 作 时 ， 对 于 
不 能 立即 满足 的 请 求 ， 服 务 器 将 暂时 挂 起 它们 ， 客 户 只 有 在 另 一 个 客户 产生 它们 所 需 的 数据 后 才能 得 
到 应 答 。 

在 后 面 关于 事务 锁 的 小 节 中 ， 我 们 将 讨论 利用 带 同 步 操作 的 对 象 来 实现 一 个 事务 锁 。 当 某 个 客户 
试图 获取 一 个 锁 时 ， 它 必须 等 待 其 他 客户 释放 该 锁 。 

如 果 没 有 这 种 线程 同步 机 制 ， 那 么 请 求 不 能 马上 得 到 满足 的 客户 ， 例 如 客户 在 一 个 空 队 列 上 调用 
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first 方法 ， 会 被 告 之 以 后 重 试 。 这 种 方式 是 不 能 令 人 满意 的 ， 因 为 它 导 致 客户 不 断 轮 询 服务 器 ， 服 务 
器 也 要 不 断 执行 额外 的 请 求 。 另 外 ， 服 务 器 在 处 理 这 些 轮 询 时 ， 其 他 客户 必须 等 待 ， 这 也 造成 了 不 


公平 。 


16. 1.2 事务 的 故障 模型 


Lampson [198la] 提出 过 一 个 分 布 事务 的 故障 模型 包括 了 硬盘 故障 、 服 务 器 故障 以 及 通信 故障 。 
该 故障 模型 声称 : 可 以 保证 算法 在 出 现 可 预见 故障 时 正确 工作 ， 但 是 对 于 不 可 预见 的 灾难 性 故障 则 不 
能 保证 正常 处 理 。 尽 管 会 出 现 错误 ， 但 是 可 以 在 发 生 不 正确 行为 之 前 发 现 并 处 理 这 些 错误 。Lampson 
的 故障 模型 包括 以 下 故障 : 

。 对 持久 性 存储 的 写 操作 可 能 发 生 故 障 (或 因为 写 操作 无 效 或 因为 写 人 错误 的 值 )。 例 如 ， 将 数 
据 写 到 错误 的 磁盘 块 被 认为 是 一 个 灾难 性 故障 。 文 件 存 储 有 可 能 损坏 。 从 持久 性 存储 中 读数 据 
时 可 根据 校 验 和 来 判断 数据 块 是 否 损坏 。 
服务 器 可 能 偶尔 骨 省 。 当 一 个 崩溃 的 服务 器 由 一 个 新 进程 替代 后 ， 它 的 可 变 内 存 被 重 置 ， 般 
省 之 前 的 数据 均 已 丢失 。 此 后 新 进程 执行 一 个 恢复 过 程 ， 根 据 持 久 存 储 中 的 信息 以 及 从 其 他 
进程 获得 的 信息 设置 对 象 的 值 ， 包 括 与 两 阶段 提交 协议 有 关 的 对 象 的 值 ( 见 17.6 节 ) 。 当 一 
个 处 理 器 出 现 故 障 时 ， 服 务 器 也 会 崩溃 ， 这 样 它 就 不 会 发 送 错 误 的 消息 或 将 错误 的 值 写 人 持 
久 存 储 ， 即 它 不 会 产生 随机 故障 。 服 务 器 月 演 可 能 出 现在 任何 时 候 ， 特 别 是 在 恢复 时 也 可 能 
”出现 。 

。 消息 传递 可 能 有 任意 长 的 延迟 。 消 息 可 能 丢失 、 重 复 或 者 损坏 。 接 收 方 ( 通 过 校 验 和 ) 能 够 

检测 到 受 损 消息 。 未 发 现 的 受 损 消 息 和 伪造 的 消息 会 导致 灾难 性 故障 。 

利用 这 个 关于 持久 存储 、 处 理 器 和 通信 的 故障 模型 能 够 设计 出 一 个 可 靠 系 统 ， 该 系统 的 组 件 可 对 
付 任 何 单一 故障 ， 并 提供 一 个 简单 的 故障 模型 。 特 别 是 ， 可 靠 存 储 (stable storage) 可 以 在 出 现 一 个 
write 操作 故障 或 者 进程 崩溃 故障 的 情况 下 提供 原子 写 操作 。 它 是 通过 将 每 一 个 数据 块 复制 到 两 个 磁盘 
块 上 实现 的 。 此 时 一 个 write 操作 作用 于 两 个 磁盘 块 上 ， 在 一 个 磁盘 出 现 故 障 的 情况 下 ， 另 一 个 好 的 数 
据 块 能 提供 正确 数据 。 可 靠 处 理 器 (stable processor) 使 用 可 靠 存 储 ， 用 于 在 般 泪 后 恢复 对 象 。 可 通过 
可 靠 的 远程 过 程 调 用 机 制 来 屏蔽 通信 和 错误。 


16.2 事务 


在 某 些 情况 下 ， 客 户 要 求 给 服务 器 的 一 组 请 求 是 原子 的 ， 也 就 是 说 ; 

1) 它们 不 受 其 他 并 发 客户 操作 的 干扰 。 

2) 所 有 操作 或 者 全 部 成 功 完成 ， 或 者 在 服务 器 故障 时 不 会 产生 任何 影响 。 

让 我 们 回 到 银行 的 例子 来 说 明 事 务 概 念 。 当 一 个 客户 对 特定 账户 操作 时 ， 它 首先 利用 lookUp 根据 
用 户 名 查询 到 相应 的 银行 账户 ， 然 后 在 相关 账户 上 进行 deposit、withdraw 或 者 getBalance 操作 。 我 们 的 
例子 使 用 了 账户 名 为 4、B 和 CC 的 三 个 账户 。 客 户 查找 这 些 名 字 并 将 它们 的 引用 存储 在 Account 类 型 的 
变量 a、b 和 < 中。 为 简单 起 见 ， 我们 略 去 了 由 名 字 查 找 账户 和 变量 声明 等 细节 。 

图 16-2 给 出 了 一 个 简单 客户 事务 的 例子 ， 该 事务 指定 了 若干 涉及 账户 4、 





Transaction T: 


BAC 的 动作 。 前 两 个 动作 是 从 账户 4 转账 100 元 至 账户 召 ， 后 两 个 操作 从 账 | awitharaw (100) ; 
FC 转账 200 元 至 账户 B。 客 户 是 通过 一 个 取款 操作 和 一 个 存款 操作 完成 转 ”154adeposir (100) ; 
账 的 。 c.withdraw (200) ; 


事务 起 源 于 数据 库 管 理 系统 。 数 据 库 管理 系统 中 的 事务 是 访问 数据 库 的 ” [seP0# (200) | 





一 个 程序 的 执行 。 事 务 后 来 通过 事务 文件 服务 器 ， 例 如 XDFS [Mitchell and 图 16.2 一 个 客户 的 
Dion 1982] ， 被 引入 到 分 布 式 系统 中 。 在 事务 文件 服务 器 中 ， 事 务 是 指 客户 执 银行 事务 
行 一 组 文件 操作 请 求 。 在 若干 研究 项 目 〈 如 Argus [Liskov 1998] 和 Arjuna 

[Shrivastava et al. 1991]) 中 ,事务 又 被 引入 分 布 式 对 象 系统 。 这 时 的 事务 是 指 一 组 客户 请 求 的 执行 ， 
如 图 16-2 的 例子 所 示 。 从 客户 角度 来 看 ， 事 务 是 组 成 一 个 步 怠 的 一 组 操作 ， 它 将 服务 器 的 数据 从 一 个 
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一 致 性 状态 转换 到 另 一 个 一 致 性 状态 

事务 可 以 作为 中 间 件 的 一 部 分 提供 。 例 如 ，CORBA 提供 了 对 象 事务 服务 规范 [OMC 2003] ， 它 的 
DL 接口 允许 客户 事务 访问 多 个 服务 器 上 的 多 个 对 象 。 客 户 可 利用 有 关 操 作 来 指定 事务 的 开始 和 结束 。 
客户 ORB 为 每 个 事务 维持 一 个 上 下 文 ， 该 上 下 文 随 着 操作 调用 而 传递 。 在 CORBA 中 ， 事 务 对 象 在 事 
务 作 用 域内 被 调用 ， 通 常 有 一 些 与 它们 相关 的 持久 存储 。 

在 以 上 的 讨论 中 ， 事 务 总 是 应 用 到 可 恢复 对 象 上 并 具有 原子 性 。 这 样 的 事务 常常 被 称 作 原子 事务 
(atomic transaction) ( 见 下 面 的 讨论 ) 。 这 里 的 原子 性 包含 两 方面 的 含义 : 

全 有 或 全 无 : 一 个 事务 或 者 成 功 完 成 ， 使 其 操作 的 所 有 效果 都 记录 到 相关 对 象 中 ; 或 者 由 于 故障 
或 有 意 终 止 等 原因 而 不 留 下 任何 效果 。 这 种 全 有 或 全 无 本 身 又 包含 两 层 含义 ， 

。 故障 原子 性 : 即使 服务 器 裔 省 ， 事 务 的 效果 也 是 原子 的 。 

© 持久 性 : 一 旦 事务 成 功 完 成 ， 它 的 所 有 效果 将 被 保存 到 持久 存储 中 。 这 里 的 “持久 存储 ” 指 

的 是 磁盘 或 其 他 永久 介质 中 的 文件 。 文 件 中 存放 的 数据 不 受 服务 器 崩溃 影响 。 

隔离 性 : 每 个 事务 的 执行 不 受 其 他 事务 的 影响 。 换 言 之 ， 事 务 在 执行 过 程 中 的 中 间 效 果 对 其 他 事 

务 是 不 可 见 的 。 下 面 的 盒子 中 介绍 了 ACID 助 记 符 以 助 于 读者 更 好 地 记 住 原子 事物 的 特性 。 


ACID 特性 ”Hirder 和 Reuter [1983] 建议 用 “ACID” 表 示 事 务 的 下 列 属性 : 

原子 性 (Atomicity) : 事务 必须 是 全 有 或 全 无 。 

一 致 性 (Consistency) : 事务 将 系统 从 一 个 一 致 性 状态 转换 到 另 一 个 一 致 性 状态 。 

隔离 性 (Isolation) 。 

持久 性 (Durability) 。 

在 我 们 的 事务 属性 列表 中 没有 包括 “一 致 性 ”， 因 为 它 通常 是 服务 器 和 客户 端 程序 员 的 责任 ， 
应 由 他 们 确保 事务 使 得 数据 库 是 一 致 的 。 

作为 一 致 性 的 一 个 例子 ,假设 在 银行 的 例子 中 ， 一 个 对 象 持 有 所 有 账户 余额 的 总 计 ， 该 值 被 作 
为 branchTotal 的 结果 。 客 户 或 者 通过 使 用 branchTotal 或 者 在 每 个 账户 上 调用 getBalance 来 得 到 所 有 
账户 余额 的 总 计 。 从 一 致 性 的 角度 看 ， 这 两 种 方法 应 该 得 色相 同 的 结果 。 为 了 维护 这 个 一 致 性 ，| [68° 
deposit 和 withdraw 操作 必须 更 新 拥有 所 有 账户 余额 总 计 的 对 象 。 


为 了 支持 故障 原子 性 和 持久 性 要 求 ， 对 象 必须 是 可 恢复 的 (recoverable) 。 当 服务 器 进程 由 于 硬件 
故障 或 软件 错误 而 崩溃 时 ， 所 有 已 完成 事务 的 更 新 必须 保留 在 持久 存储 中 。 这 样 ， 当 服务 器 被 新 的 进 
程 替代 后 ， 它 可 以 利用 这 些 更 新 信息 来 恢复 对 象 ， 以 达到 全 有 或 全 无 的 要 求 。 当 服务 器 确认 完成 了 一 
个 客户 事务 时 ,事务 中 所 有 对 对 象 的 改变 必须 已 经 记录 在 持久 存储 中 。 

支持 事务 的 服务 器 必须 有 效 地 对 操作 进行 同步 以 保证 事务 之 间 的 隔离 性 。 最 简单 的 方法 是 串 行 执 
行事 务 一 一 可 以 按 任意 次 序 一 次 一 个 地 执行 事务 。 遗 憾 的 是 ， 这 种 解决 方案 对 有 多 个 交互 用 户 共 享 其 
资源 的 服务 器 而 言 是 不 可 接受 的 。 在 我 们 的 银行 例子 中 ， 就 需要 同时 允许 多 个 银行 柜员 执行 联机 银行 
事务 。 

任何 支持 事务 的 服务 器 的 目标 都 是 最 大 程度 地 实现 并 发 。 因 此 ， 如 果 事 务 的 并 发 执行 与 串 行 执行 
FAIA RR, WENE PTE (serially equivalent) 的 或 可 囊 行 化 (serializable) 的 ， 那 么 可 多 
许 事务 并 发 执行 。 

事务 功能 可 加 到 有 可 恢复 对 象 的 服务 器 = (openTransaction >trans, 

上 。 每 个 事务 都 由 协调 者 创建 和 管理 ， 协 调 | 。 开始 一 个 新 事务 ， 并 返回 该 事务 的 唯一 TID。 
者 实现 了 图 16-3 中 的 Coordinator 接口 。 协 调 该 标识 符 将 用 于 事务 的 其 他 操作 中 。 


_、 closeTransaction (trans) — (commitabort) ; 
者 为 每 个 事务 赋予 一 个 事务 标识 符 TID)。 | 结束 事务 : 如 果 返 回信 为 commit， 表 示 访 事务 被 成 功 提交 ; 
客户 调用 协调 者 的 openTransaeiton 方法 来 引入 否则 返回 abort:， 表 示 该 事务 被 放弃 。 


一 个 新 事务 分 配 并 返回 一 个 事务 标识 符 。 人 (trans) ; 
当 事 务 结束 时 ， 客 户 调用 closeTransaction 77 
法 表示 事务 结束 一 一 该 事务 访问 的 所 有 可 恢 图 16-3 Coordinator 接口 的 操作 

















a 
to 
— 























402 





[682] 


第 16 章 事务 和 并 发 控制 


复 对 象 都 应 该 被 保存 。 如 果 由 于 某 种 原因 ， 客 户 需要 放弃 事务 ， 那 么 它 调用 abortTransaction 方法 一 一 
事务 的 所 有 效果 将 被 取消 。 

事务 的 完成 需 通过 一 个 客户 程序 、 若 干 可 恢复 对 象 和 一 个 协调 者 之 间 的 合作 。 客 户 指定 了 组 成 事 
务 的 一 系列 针对 可 恢复 对 象 的 操作 。 为 了 实现 这 一 点 ， 客 户 在 每 次 调用 中 发 送 由 openTransaction 返回 
的 事务 标识 符 。 一 种 可 能 的 实现 方式 是 将 TD 作为 可 恢复 对 象 的 每 个 方法 的 一 个 额外 参数 。 例 如 ,在 
银行 服务 中 ，deposit 操作 可 能 定义 成 : 


deposit( trans , amount ) 


Æ TID À trans 的 事务 中 给 账户 存款 amount 

如 果 事 务 作为 中 间 件 提供 ， 那 么 所 有 介 于 openTransaction 和 closeTransaction 或 abortTransaction 之 间 
的 远程 调用 都 隐 式 地 传递 TID 。 这 正 是 CORBA 事务 服务 的 做 法 。 因 此 ， 在 我 们 的 例子 中 不 再 列 出 TID。 

通常 ， 事 务 在 客户 调用 closeTransaction 后 结束 。 如 果 事 务 正常 进行 ， 那 么 closeTransaction 的 返回 
值 表明 事务 被 提交 一 一 它 给 客户 一 个 承诺 : 事务 所 请 求 的 所 有 更 新 都 被 永久 记录 。 此 后 的 其 他 事务 访 
问 同一 数据 时 将 看 到 这 些 更 新 的 结果 。 

另 一 种 情况 是 ， 事 务 由 于 某 些 原因 ， 比 如 事务 自身 的 特性 、 与 其 他 事务 发 生 冲 突 或 者 计算 机 或 进 
程 崩溃 ， 而 不 得 不 放弃 (abort) 。 一 旦 事务 被 放弃 ， 参 与 方 〈( 可 恢复 对 象 和 协调 者 ) 必须 保证 在 持久 
存储 中 ， 在 对 象 及 其 副本 上 清除 所 有 效果 ， 使 该 事务 的 影响 对 其 他 事务 不 可 见 。 

事务 或 者 成 功 执行 ， 或 者 以 两 种 方式 之 一 被 放弃 一 一 客户 放弃 事务 (使 用 abortTransaction 调用 ) 
或 服务 器 放弃 事务 。 图 16-4 分 别 列 出 了 事务 的 3 个 执行 历史 。 在 这 几 种 情况 中 ， 我 们 都 称 事务 执行 失 
W (failing). i 
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操作 操作 向 客户 报告 ERROR 





closeTransaction abortTransaction 
图 16-4 事务 执行 历史 


进程 骨 溃 时 的 服务 器 动作 ”如果 服务 器 进程 意外 崩 演 ， 它 最 终 会 被 新 的 服务 器 进程 苦 代 。 新 的 服 
务 器 进程 将 放弃 所 有 未 提交 事务 ， 并 使 用 一 个 恢复 过 程 将 对 象 的 值 恢 复 成 最 近 提 交 的 事务 所 产生 的 值 。 
为 了 处 理事 务 过 程 中 意外 崩溃 的 客户 ， 服 务 器 给 每 个 事务 都 设 定 一 个 过 期 时 间 ， 服 务 器 将 放弃 在 过 期 
时 间 前 还 未 完成 的 事务 。 

服务 串 进 程 贿 溃 时 的 客户 动作 ”如 果 服 务 器 在 执行 事务 期 间 贿 溃 ， 那 么 客户 在 超时 后 会 接收 到 一 
个 异常 ， 从 而 了 解 到 服务 器 崩溃 。 如 果 在 执行 事务 期 间 服务 器 骨 省 且 被 新 服务 器 进程 替代 ， 那 么 未 完 
成 的 事务 将 不 再 有 效 ， 当 客户 发 起 新 操作 时 它 会 收 到 异常 。 在 任何 一 种 情况 下 ， 客 户 需要 建立 一 个 计 
划 〈 可 能 通过 人 工 干 预 等 方式 ) 来 完成 或 放弃 事务 所 在 的 任务 。 


16. 2.1 并 发 控制 

本 节 将 用 银行 的 例子 说 明 并 发 事务 中 的 两 个 著名 问题 一 一 “更 新 丢失 ”问题 和 “不 一 致 检索 ” 问 
题 。 然 后 ， 本 节 给 出 如 何 利用 事务 的 串 行 等 价 执行 来 避免 这 些 问 题 。 我 们 假设 deposit, withdraw, get- 
Balance 和 setBalance 都 是 同步 操作 ， 即 它 对 记录 账户 余额 的 实例 变量 的 效果 是 原子 的 。 

更 新 丢失 问题 更 新 丢失 问题 可 用 银行 账户 4、B 和 C 上 的 两 个 事务 来 说 明 。 这 3 个 账户 的 初始 余 
人 额 分 别 是 $100、$200 和 $300。 事 务 了 将 资金 由 账户 4 转 到 账户 互 ， 事 务 UV 将 资金 由 账户 C 转 到 账户 
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8。 两 次 转账 的 金额 都 是 当前 8 账户 余额 的 10% 。 因 此 ， 两 次 转账 的 最 终 效果 是 两 次 以 10% 的 幅度 增 
加 账户 B 的 余额 ，B 的 最 终 值 为 $242。 

下 面 来 看 看 事务 7 和 事务 U 并 发 执行 的 效果 ， 如 图 16-5 所 示 。 两 个 事务 获得 账户 8 的 余额 $200, 
然后 存 人 $20。 结 果 是 将 账户 B 的 余额 提高 了 $20， 而 不 是 $42， 这 是 不 正确 的 。 这 就 是 所 谓 的 “更 新 
丢失 ”问题 。 事 务 0 的 更 新 被 丢失 是 因为 事务 了 覆盖 了 它 的 更 新 。 两 个 事务 在 写 人 新 数据 前 读 出 的 都 
是 旧 数 据 。 

在 图 16-5 的 后 半 部 分 我们 列 出 了 对 相应 账户 余额 有 影响 的 操作 (阴影 部 分 ) ， 我 们 假定 某 行 上 
的 操作 在 该 行 之 前 的 行 执行 之 后 执行 。 





事务 7: 事务 U: 
balance = b.getBalance(); ~ balance = b.getBalance(); 
b.setBalance(balance*!. 1); bsetBalance(balance*1.1). 
a.withdraw(balance/10) c.withdraw(balance/10) 


balance = b.getBalance(); $ 200 


balance = b.getBalance(); $ 200 


b.setBalance(balance*1.1);| $220 


$220 
$80 


b.setBalance(balance*1.1); 
a.withdraw(balance/10) 





c.withdraw(balance/10) $280 





图 16-5 更 新 丢失 问题 


不 一 致 检索 图 16-6 列 出 了 另 一 个 与 银行 账户 有 关 的 例子 : 事务 了 将 资金 由 账户 4 转 到 账户 B， 
事务 不 调用 branchTotal 方法 获得 银行 所 有 账户 的 总 余额 。 账 户 4 和 8B 的 最 初 余额 都 是 $200， 但 是 
branchTotal 计算 4 AIB 的 总 和 ,结果 却 是 $300 ， 这 是 错误 的 。 这 就 是 “不 一 致 检索 ”问题 。 事 务 奢 的 
检索 是 不 一 致 的 ， 因 为 在 WW 计算 总 和 的 时 候 ,V 已 经 完成 了 转账 操作 中 的 取款 部 分 。 

RSV: 
a.withdraw(100) 
b.deposit(100) 
a.withdraw(100); 





WHEW: 
aBranch. branchTotal() 


$ 100 
total = a.getBalance() $ 100 


total = total+b.getBalance() $300 








total = total+c.getBalance() 


b.deposit(100) $ 300 





图 16-6 不 一 致 检索 问题 


串 行 等 价 性 ”如 果 每 个 事务 知道 它 单 独 执行 的 正确 效果 ， 那么 我 们 可 以 推断 出 这 些 事务 按 某 
种 次 序 一 次 执行 一 个 事务 的 结果 也 是 正确 的 。 如 果 并 发 事务 交错 执行 操作 的 效果 等 同 于 按 某 种 次 
序 一 次 执行 一 个 事务 的 效果 ， 那 么 这 种 交错 执行 是 一 种 串 行 等 价 的 交错 执行 。 我 们 说 两 个 事务 具 
有 相同 效果 ， 是 指 读 操作 返回 相同 的 值 ， 并 且 事 务 结 束 时 ， 所 有 对 象 的 实例 变量 也 具有 相同 
的 值 。 . 

使 用 串 行 等 价 性 作为 标准 来 判断 并 发 执行 是 否 正确 ,可 以 防止 更 新 丢失 和 不 一 致 检索 问题 的 
出 现 。 
在 两 个 事务 都 读 取 了 一 个 变量 的 旧 数 据 ， 并 用 它 来 计算 新 数据 时 ， 会 出 现 更 新 丢失 问题 。 如 果 两 
个 事务 一 前 一 后 执行 ， 就 不 会 发 生 这 个 问题 ， 因 为 后 执行 的 事务 将 读 取 到 前 面 执行 的 事务 更 新 后 的 数 
据 。 由 于 两 个 事务 进行 串 行 等 价 的 交错 执行 能 够 产生 与 串 行 执行 同样 的 效果 ， 所 以 通过 串 行 等 价 ， 我 
们 能 够 解决 更 新 丢失 问题 。 图 16-7 列 出 了 这 样 的 一 种 交错 执行 ， 其 中 影响 共享 账户 B 的 操作 实际 上 是 
串 行 的 ， 因 为 事务 了 在 事务 U 之 前 完成 了 所 有 对 B 的 操作 。 另 一 种 具有 该 性 质 的 交错 执行 是 事务 UE 
事务 T 开 始 之 前 完成 它 对 账户 B 的 操作 。 
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BST: Ss ~ 
balance = b.getBalance() ~ balance = b.getBalance() 
‘bsetBalance(balance*l 1) | b.setBalance(balance*l.1) | 
-a.withdraw(balance/10) =—~—se.withdraw(balance/10) 


balance = b.getBalance() $ 200 


b.setBalance(balance*1.1) $220 
balance = b.getBalance() $ 220 


b.setBalance(balance*].1) $242 
a.withdraw(balance/10) $ 80 





c.withdraw(balance/10) $ 278 





图 16-7 品行 等 价 地 交错 执行 事务 了 和 事务 U 


现在 我 们 在 事务 V 将 资金 从 账户 4 转账 到 B 而 事务 WW 正在 获取 所 有 余额 总 和 〈 见 图 16-6) 的 情况 
下 ， 考 虑 与 不 一 致 检索 有 关 的 串 行 等 价 性 的 效果 。 不 一 致 检索 在 某 个 检索 事务 与 一 个 更 新 事务 并 发 运 
行 的 时 候 出 现 。 如 果 检 索 事务 在 更 新 事务 之 前 或 之 后 执行 ， 问 题 就 不 会 发 生 。 一 个 检索 事务 和 一 个 更 
新 事务 进行 串 行 等 价 的 交错 执行 〈 如 图 16-8 中 的 例子 ) ， 可 以 防止 不 一 致 检索 的 发 生 。 





FAV. «BSW: 
a.withdraw(100); ~ aBranch.branchTotal() 
b.deposit(100) 。 
a.withdraw(100); $ 100 
b.d it(100, $ 300 
ROSEMA total = a.getBalance() $ 100 


total = total+ b.getBalance() $ 400 


total = total+c.getBalance() | 





图 16-8” 串 行 等 价 地 交错 执行 事务 Y 和 事务 W 


冲突 操作 ”如 果 两 个 操作 的 执行 效果 和 它们 的 执行 次 序 相关 ， 我 们 称 这 两 个 操作 相互 冲突 (con- 
flict) 。 为 简化 讨论 ， 我 们 考虑 操作 read Fl write. read 读 取 对 象 值 ， 而 write 更 新 对 象 值 。 一 个 操作 的 效 
果 (effect) 是 指 由 write 操作 设置 的 对 象 值 和 由 read 操作 返回 的 结果 。 图 16-9 给 出 了 read 和 write 操作 
的 冲突 规则 。 | 

对 任意 两 个 事务 ， 可 以 确定 它们 之 间 冲 突 操 作 的 访问 次 序 。 那 么 ， 串 行 等 价 性 可 以 从 冲突 操作 和 角 
度 定义 如 下 : 

两 个 事务 串 行 等 价 的 充分 必要 条 件 是 ， 两 个 事务 中 所 有 的 冲突 操作 都 按 相同 的 次 序 在 它们 访问 的 
对 象 上 执行 。 





不 同事 务 的 操作 是 否 冲突 
read read 否 由 于 两 个 read 操作 的 执行 效果 不 依赖 这 两 个 操作 的 执行 次 序 
read write 是 由 于 一 个 read 操作 和 一 个 write 操作 的 执行 效果 依赖 于 它们 的 执行 次 序 
write write 是 由 于 两 个 write 操作 的 执行 效果 依赖 于 这 两 个 操作 的 执行 次 序 











图 16-9 read 和 write 操作 的 冲突 规则 
考虑 下 面 的 例子 ， 事务 了 和 事务 U 定 义 如 下 : 








T: x =read(i) ;write(i,10) ;write(j,20) ; 事务 7 BAU: 
U: y =read(j) ;write(j,30) ;z = read(i) ; x = read(i) 
= : write(i, 10) = endif 
图 16-10 列 出 了 它们 的 一 种 交错 执行 过 程 。 注意 ， 每 个 , ET A 30) 
事务 相当 于 另 一 个 事务 对 对 象 ; 和 /的 访问 是 串 行 的 ， 因 为 | ve 2 wi 





事务 了 对 变量 i 的 访问 都 在 事务 U 对 i 访问 之 前 进行 ， 而 事 图 16-10” 非 申 行 等 价 地 执行 事务 
务 忆 对 变量 7 的 访问 都 在 事务 了 对 7 访问 之 前 进行 。 但 是 这 了 和 事务 U 的 操作 
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个 执行 次 序 不 是 串 行 等 价 的 ， 因 为 对 两 个 对 象 的 冲突 操作 并 未 按照 相同 次 序 执行 。 串 行 等 价 的 执行 次 
序 要 求 满足 下 面 两 个 条 件 之 一 : 

1) 事务 了 在 事务 U 之 前 访问 i,， 并且 事务 了 在 事务 上 之 前 访问 j。 

2) 事务 U 在 事务 7 了 之 前 访问 i,， 并 且 事 务 U 在 事务 了 之 前 访问 j。 

串 行 等 价 性 可 作为 一 个 标准 用 于 生成 并 发 控制 协议 。 并 发 控制 协议 用 于 将 访问 对 象 的 并 发 事务 串 
行 化 。 有 3 种 常用 的 并 发 控制 方法 : 锁 、 乐 观 并 发 控制 和 时 间 惟 排序 。 大 多数 实际 系统 利用 锁 方 法 
(参见 16.4 节 的 讨论 ) 。 使 用 锁 方 法 时 ， 对 象 在 被 访问 之 前 ， 服 务 器 就 为 该 对 象 设置 一 个 锁 ， 并 在 该 锁 
上 标记 上 事务 标记 ， 当 事务 完成 后 服务 器 再 删除 这 些 锁 。 某 个 对 象 被 锁 住 后 ， 只 有 锁 住 该 对 象 的 事务 
可 以 访问 它 ; 而 其 他 的 事务 必须 等 到 该 对 象 被 解锁 ， 或 者 某 些 情况 下 共享 该 锁 。 使 用 锁 可 能 会 导致 死 
锁 ， 此 时 ， 事 务 相互 等 待 其 他 事务 释放 锁 。 例 如 ， 有 两 个 事务 各 自 锁 住 了 一 个 对 象 ， 而 又 要 访问 被 对 
方 锁 住 的 对 象 ， 就 会 产生 死 锁 。 关 于 死 锁 和 它 的 补救 方法 ， 我 们 将 在 16. 4. 1 节 讨论 。 

16.5 节 将 描述 乐观 并 发 控制 。 在 乐观 并 发 控制 方案 中 ， 事 务 能 够 一 直 运 行 而 不 会 被 锁 住 ， 当 它 请 
求 提 交 时 ， 服 务 器 检测 该 事务 是 否 执 行 了 与 其 他 并 发 事务 相 冲 突 的 操作 ,一 旦 检测 出 冲突 ， 服 务 器 就 
放弃 该 事务 并 重新 启动 该 事务 。 检 测 的 目的 是 保证 所 有 对 象 是 正确 的 。 

时 间 截 排序 将 在 16. 6 节 描 述 。 在 时 间 戳 排序 中 ， 服 务 器 记录 对 每 个 对 象 最 近 一 次 读 写 访问 的 时 
间 。 事 务 访问 对 象 时 ， 需 要 比较 事务 的 时 间 惟 和 对 象 的 时 间 惟 ， 来 决定 是 否 允 许 立 即 访问 、 延 迟 访问 
或 拒绝 访问 该 对 象 。 如 果 决 定 延 迟 访问 ， 那 么 该 事务 就 要 等 待 ; 如 果 决 定 拒 绝 访问 ， 那 么 将 放弃 该 
事务 。 

在 检测 到 操作 冲突 之 后 ， 一 般 通 过 让 一 个 客户 事务 等 待 男 一 个 事务 或 是 重新 运行 事务 或 是 两 者 的 
结合 来 实现 并 发 控制 。 


16. 2.2 事务 放弃 时 的 恢复 


服务 器 必须 记录 所 有 已 提交 事务 的 效果 ， 但 不 保存 被 放弃 事务 的 效果 。 因 此 ， 服 务 器 必须 保证 事 
务 被 放弃 后 ， 它 的 更 新 作用 完全 取消 ， 而 不 影响 其 他 并 发 事务 。 

本 节 以 银行 的 例子 阐述 与 事务 放弃 相关 的 两 个 问题 。 这 两 个 问题 是 “ 脏 数据 读 取 ” 和 “过 早 写 
入 ”， 这 两 个 问题 在 事务 的 串 行 等 价 执行 中 仍然 出 现 。 这 两 个 问题 与 对 象 上 的 操作 效果 有 关 ， 如 影响 银 
行 账户 的 余额 。 为 简化 讨论 ,我们 将 所 有 的 操作 分 为 read 操作 和 write 操作 ， 在 我 们 的 例子 中 ，getBal- 
ance 是 read 操作 而 setBalance 是 write 操作 。 

脏 数据 读 取 ”事务 的 隔离 性 要 求 未 提交 事务 的 状态 对 其 他 事务 是 不 可 见 的 。 如 果菜 个 事务 读 取 了 
另 一 个 未 提交 事务 写 人 的 数据 那么 这 种 交互 会 引起 “ 脏 数据 读 取 ”问题 。 考 虑 图 16-11 中 的 事务 执 
TH, 事务 7 读 取 账户 4 的 余额 并 为 它 增加 $10， 事 务 UREA 的 余额 并 给 它 增加 $20， 这 两 个 
事务 的 执行 是 串 行 等 价 的 。 现 在 假设 事务 U 提交 之 后 事务 了 被 放弃 ， 由 于 账户 4 的 余额 必须 恢复 到 它 
的 初始 值 ， 所 以 事务 过 所 读 取 的 数据 是 一 个 从 不 存在 的 值 。 我 们 称 事务 U 进行 了 一 次 脏 数据 读 取 
(dirty read) 。 因 为 它 已 经 被 提交 ， 所 以 它 不 能 被 取消 。 





事务 7 BAU: 
a.getBalance() a.getBalance() 
a.setBalance(balance + 10) a.setBalance(balance +20) _ 


balance = a. getBalance() $ 100 

a.setBalance(balance +10) $110 
balance = a.getBalance() $110 
a.setBalance(balance +20) $130 


commit transaction 








abort transaction 





图 16-11 事务 了 放弃 时 的 脏 数据 读 取 
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事务 可 恢复 性 ”如果 某 个 事务 (PMU) 访问 了 被 放弃 事务 的 更 新 结果 ， 并 且 已 提交 ， 那 么 服务 
器 的 状态 就 不 可 恢复 。 为 了 确保 不 出 现 这 种 情况 ， 所 有 进行 了 及 数据 读 取 的 事务 〈 例 如 U) 必须 推迟 
提交 。 可 恢复 的 策略 是 推迟 事务 提交 ， 直 到 它 读 取 更 新 结果 的 其 他 事务 都 已 提交 。 在 我 们 的 例子 中 ， 
事务 U 必须 延迟 到 事务 了 提交 后 才能 提交 。 如 果 事 务 了 放弃 了 ， 那 么 事务 U 也 必须 放弃 。 
连锁 放弃 ”在 图 16-11 中 ,假设 事务 U 推迟 提交 直到 事务 了 被 放弃 ， 那么 此 时 事务 0 也 要 放弃 。 
遗憾 的 是 ， 其 他 观察 到 U 结果 的 事务 同样 也 要 放弃 。 这 些 事 务 的 放弃 可 能 导致 后 续 更 多 的 事务 被 放 
弃 。 这 种 情况 称 为 连锁 放弃 (cascading abort)。 防 止 这 种 情况 出 现 的 方法 是 ， 只 允许 事务 读 取 已 提交 
事务 写 人 的 对 象 。 为 了 保证 这 一 点 ， 读 某 对 象 的 操作 必须 推迟 到 写 该 对 象 数 据 的 事务 提交 或 放弃 。 防 
止 连锁 放弃 是 一 个 比 保证 事务 可 恢复 性 更 强 的 条 件 。 
过 早 写 入 ”考虑 事务 放弃 隐 含 的 另 一 种 可 能 结果 。 它 涉及 两 个 事务 针对 同一 个 对 象 进 行 write 操 
作 。 在 图 16-12 H, KAA 上 的 事务 7 和 事务 U 都 调用 setBalance。 事 务 开始 前 ， 账 户 4 的 余额 是 
$100， 图 中 的 事务 执行 是 串 行 等 价 的 ， 事 务 了 将 余额 更 改 为 $105， 事务 U 将 余额 更 改 为 $110。 如 果 
事务 U 被 放弃 而 事务 了 提交 ， 那 么 余额 将 恢复 为 $105。 
a.setBalance(105) -~ asetBalance(110) 
$ 100 
a.setBalance(105) $105 








a.setBalance(110) $110 





Æ 16-12 重 写 未 提交 数据 


一 些 数据 库 系统 在 放弃 事务 时 ， 将 变量 的 值 恢复 到 该 事务 所 有 write 操作 的 “前 映像 ” 。 在 我 们 的 
例子 中 ，4 的 初始 值 是 $100 ， 它 是 事务 TH) write “ATR”, KH, BS 0 的 write 前 映像 是 $105。 
RA, MRES U 放弃 了 ， 我 们 可 得 到 正确 的 账户 余额 $105。 

现在 考虑 事务 U 提交 而 事务 7 放弃 的 情况 。 此 时 ， 余 额 应 该 是 $110， 但 事务 了 的 write“ 前 映像 ” 
是 $100， 所 以 我 们 最 终 获得 了 $100 的 错误 值 。 类 似 地 ， 如 果 事 务 了 先 被 放弃 接着 U 也 被 放弃 ， 由 于 
U 的 write 前 映像 是 $105， 所 以 我 们 得 到 的 账户 余额 为 $105, 但 是 正确 的 数值 应 该 是 $100。 

为 了 保证 使 用 前 映像 进行 事务 恢复 时 获得 正确 的 结果 ，write 操作 必须 等 到 前 面 修改 同一 对 象 的 其 
他 事务 提交 或 放弃 后 才能 进行 。 

事务 的 严格 执行 ”为 了 避免 “及 数据 读 取 ”和 “过 早 写 人 ”， 通 常 要 求 事务 推迟 read 操作 和 write 
操作 。 如 果 read 操作 和 write 操作 都 推迟 到 写 同 一 对 象 的 其 他 事务 提交 或 放弃 后 才 进 行 ， 那 么 这 种 执行 
被 称 为 是 严格 的 。 事 务 的 严格 执行 可 以 真正 保证 事务 的 隔离 性 。 

临时 版 本 ”对 于 参与 事务 的 可 恢复 对 象 服务 器 ， 它 必须 保证 事务 放弃 后 ， 能 清除 所 有 对 象 的 更 新 。 
为 了 达到 这 个 目的 ， 事务 中 所 有 的 更 新 操作 都 是 针对 对 象 的 挥发 性 存储 中 的 临时 版 本 完成 。 每 个 事务 
都 有 本 事务 已 更 改 的 对 象 的 临时 版 本 集 。 事 务 的 所 有 更 新 操作 将 值 存 储 在 自己 的 临时 版 本 中 ， 如 果 可 
能 ， 事 务 的 访问 操作 就 从 事务 的 临时 版 本 中 取 值 ， 如 果 取 值 失败 ， 再 从 对 象 取 值 。 

只 有 当 事 务 提交 时 ， 临 时 版 本 的 数据 才 会 用 来 更 新 对 象 ， 与 此 同时 ， 它 们 也 被 记录 到 持久 存储 中 。 
这 个 过 程 是 一 个 原子 步骤 ， 其 间 将 暂时 不 让 其 他 事务 访问 相关 对 象 。 如 果 事 务 被 放弃 ， 系 统 将 删除 它 
的 临时 版 本 。 


16.3 REES 


嵌 套 事务 扩展 了 前 面 介绍 的 事务 模型 ， 它 允许 事务 由 其 他 事务 构成 。 这 样 ， 从 一 个 事务 内 可 以 发 
起 几 个 事务 ， 从 而 能 够 将 事务 看 成 按 需 组 成 的 模块 。 

嵌 套 事务 的 最 外 层 事 务 称 为 顶层 事务 (top-level) 。 除 顶层 事务 之 外 的 其 他 事务 称 为 子 事务 (sub- 
traction) 。 例 如 在 图 16-13 中 ， 事 务 了 是 一 个 顶层 事务 ， 它 启动 两 个 子 事务 T MT, FES T 启动 它 
的 子 事务 Th 和 Tz; 子 事务 T, 启动 它 的 子 事务 Ta, T 又 启动 子 事务 Taio 
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了 顶层 事务 
Ti=openSubTransaction T,=openSubTransaction 
commit 
Tr: T; 
openSubTransaction openSubTransaction ”openSubTransaction 
pro.vcommit abort 
De Th: To 
_openSubTransaction 
prov.commit prov.commit a 
Tai: 
provcommit 
E 16-13 REFS 


就 事务 的 并 发 访问 和 故障 处 理 而 言 ， 子 事务 对 它 的 父 事务 是 原子 的 。 处 于 同一 个 层次 的 子 事务 
(例如 如 AT) 可 以 并 发 运行 ,但 它们 对 公共 对 象 的 访问 是 串 行 化 的 ， 例 如 通过 16. 4 节 描 述 的 锁 机 
制 。 每 一 个 子 事务 可 能 独立 于 父 事务 和 其 他 子 事务 出 现 故障 。 当 某 个 子 事务 放弃 时 ， 其 父 事务 有 时 可 
能 选择 另 一 个 子 事务 来 完成 它 的 工作 。 例 如 ， 茶 个 事务 需要 将 一 个 邮件 消息 发 送 给 一 个 列表 中 的 所 有 
接收 者 ， 该 事务 可 以 由 一 系列 子 事务 组 成 ， 每 个 子 事务 负责 将 消息 发 送 给 其 中 一 个 接收 者 。 如 果 某 些 
子 事务 执行 失败 ， 父 事务 可 记录 这 些 信息 ， 然 后 提交 整个 事务 ， 结 果 将 提交 所 有 成 功 的 子 事务 。 然 后 ， 
可 以 启动 另 一 个 事务 来 重新 发 送 第 一 次 未 发 出 的 那些 消息 。 

为 了 以 示 区 别 ， 我 们 称 前 文 介绍 的 事务 为 平面 事务 〈flat) 。 之 所 以 称 为 平面 的 ， 是 因为 平面 事务 
的 所 有 工作 都 在 openTransaction 和 commit/abort 之 间 的 同一 个 层次 里 完成 ， 它 不 可 能 提交 或 放弃 部 分 事 
务 。 嵌 套 事务 有 下 列 主要 的 优势 : 

1) 在 同一 个 层次 的 子 事务 (及 其 后 代 ) 可 以 并 发 运行 ， 这 提高 了 事务 内 的 并 发 度 。 如 果 这 些 子 
事务 运行 在 不 同 的 服务 器 上 ， 那 么 它们 能 够 并 行 执行 。 例 如 ， 考 虑 银行 例子 中 的 branchTotal 操作 ， 可 
以 通过 在 分 行 的 每 一 个 账户 上 调用 getBalance 来 实现 它 。 现 在 每 次 getBalance 调用 可 以 作为 一 个 子 事务 
实现 ， 这 些 子 事务 可 并 发 执行 。 由 于 这 些 操 作 应 用 于 不 同 的 账户 ， 所 以 子 事务 之 间 不 存在 冲突 的 操作 。 

2) 子 事务 可 以 独立 提交 和 放弃 。 与 单个 事务 相 比 ， 若 干 嵌 套 的 子 事务 可 能 更 强壮 。 前 面 的 发 送 邮 
件 的 例子 可 以 表明 这 一 点 一 一 如 果 利 用 平面 事务 ， 一 个 事务 失败 会 导致 整个 事务 重启 。 事 实 上 ， 父 事 
务 可 以 根据 子 事务 是 否 放 弃 来 决定 不 同 的 动作 。 

嵌 套 事务 的 提交 规则 相当 细致 : 
事务 在 它 的 子 事务 完成 以 后 ， 才 能 提交 或 放弃 。 

o 当 一 个 子 事务 执行 完毕 后 ， 它 可 以 独立 决定 是 暂时 提交 还 是 放弃 。 如 果 决 定 是 放弃 ， 那 么 这 个 
决定 是 最 终 的 。 

。 父 事务 放弃 时 ， 所 有 的 子 事 务 都 被 放弃 。 例 如 ， 如 果 7 放弃 了 ， WATES Ty AM Ty BM 

放弃 ， 即 使 它们 可 能 已 经 暂时 提交 了 。 

如 果 某 个 子 事务 放弃 了 ， 那 么 父 事务 可 以 决定 是 否 放 弃 。 在 我 们 的 例子 中 ， BRAT, 放弃 了 ， 

但 了 决定 提交 。 

如 果 顶 层 事 务 提交 ， 那 么 所 有 和 暂时 提交 的 子 事务 将 最 终 提交 (这 里 假设 它们 的 祖先 没有 一 个 放 

弃 ) 。 在 我 们 的 例子 中 ， 事 务 了 的 提交 将 允许 事务 T TaM TEX, E TaM Ta DEREX, 

因为 它们 的 父 事务 T, 放弃 了 。 需 要 注意 的 是 ， 只 有 当 顶 层 事务 提交 后 ， 子 事务 的 作用 才能 持 

久 化 。 

某 些 情况 下 ， 由 于 一 个 或 多 个 子 事务 放弃 ， 顶 层 事务 最 终 选 择 放 弃 。 例 如 ， 考 虑 下 面 的 事务 
Transfer : 

AK B $40% $100 3 A 

a. deposit (100) 
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b. withdraw( 100) 

事务 Transfer 包括 两 个 子 事务 : 一 个 执行 withdraw 操作 ， 另 一 个 执行 deposit 操作 。 如 果 两 个 子 事 
务 都 成 功 提 交 ， 那 么 Transfer 事务 也 提交 。 假 设 遇 到 账户 透支 ，withdraw 子 事务 将 放弃 。 现 在 考虑 with- 
draw 子 事务 放弃 ， 而 deposit 事务 提交 的 情况 。 回 想 一 下 ， 子 事务 的 提交 将 视 父 事务 提交 而 定 ， 我 们 假 
设 顶层 (Transfer) 事务 选择 放弃 ， 父 事务 的 放弃 将 导致 子 事务 放弃 ， 所 以 depost 事务 放弃 ， 其 效果 被 
消除 。 

CORBA 的 对 象 事务 服务 同时 支持 平面 事务 和 垦 套 事务 。 在 分 布 式 系统 中 ， 由 于 子 事务 可 以 在 不 同 
服务 器 上 并 发 执行 ， 所 以 嵌 套 事务 显得 尤其 重要 。 我 们 将 在 第 17 章 讨论 这 个 问题 。 柑 套 事务 的 这 种 形 
式 是 由 Moss 提出 的 【Moss 1985 ] 。 氢 套 事务 有 很 多 变种 ， 这 些 变种 具有 不 同 的 串 行 特性 ， 详 情 可 参考 
Weikum [1991], 


16.4 锁 


事务 必须 通过 调度 使 它们 对 共享 数据 的 执行 效果 是 串 行 等 价 的 。 服 务 器 可 以 通过 串 行 化 对 象 访问 
来 达到 事务 的 串 行 等 价 。 图 16-7 的 例子 表明 如 何在 某 种 程序 的 并 发 的 情况 下 达到 串 行 等 价 一 一 事务 了 
和 事务 U 都 访问 账户 ,但 事务 了 在 U 开始 访问 前 就 完成 了 它 的 访问 。 

一 个 简单 的 串 行 化 机 制 是 使 用 互 斥 锁 。 在 这 种 锁 机 制 下 ， 服 务 器 试图 给 客户 事务 操作 所 访问 的 对 
象 加 锁 。 如 果 客 户 请 求 访 问 的 一 个 对 象 已 被 其 他 客户 的 事务 锁 住 ， 那 么 服务 器 将 暂时 挂 起 这 个 请 求 ， 
直到 对 象 被 解锁 。 

图 16-14 说 明了 互 斥 锁 的 使 用 。 它 给 出 的 事务 与 图 16-7 中 的 事务 相同 ， 但 多 出 一 列 用 于 为 每 个 事 
务 列 出 加 锁 、 等 待 和 解锁 的 动作 。 这 个 例子 假设 在 事务 7 和 0U 运行 前 ， 账户 4、B 和 C 均 未 加 锁 。 当 

事务 了 准备 访问 账户 中 时 ， 账 户 刀 被 事务 7 锁 住 。 此 后 ， 当 事务 USUAL BN, HT BRT BE, 

所 以 U 必须 等 待 。 事 务 了 提交 时 ，B 被 解锁 ， 此 时 事务 U 继续 执行 。 在 B 上 使 用 锁 有 效 地 串 行 化 了 对 
也 的 访问 。 需 要 注意 的 是 ， 如 果 事 务 了 在 getBalance 和 setBalance 之 间 释 放 B HA, IARA UX B K 
getBalance 操作 就 能 穿插 在 7 的 操作 之 间 。 





BHT: : 事务 U: 
balance = b. getBalance() balance = b.getBalance() 
b.setBalance(bal*1.1 ) ‘b.setBalance(b a 1*1.1 ) 
a.withdraw(bal/10) c.withdraw(bal/10) 

操作 锁 操作 锁 
openTransaction 
bal = b .getBalance() 锁 住 B 
b .setBalance(bal*1.1 ) openTransaction 等 待 事务 7 在 
a.withdraw/(bal/10) BUTEA bal = b .getBalance() BERB 
close Transaction 对 4, 8 解锁 we BEB 


b .setBalance(bal*1.1 ) 
c.withdraw(bal/10) 锁 住 C 
closeTransaction 对 B,C 解锁 











图 16-14 事务 7 了 和 0U 使 用 互 斥 锁 


串 行 等 价 性 要 求 一 个 事务 对 某 个 对 象 的 所 有 访问 相对 于 其 他 事务 进行 的 访问 而 言 是 串 性 化 的 。 两 个 
事务 的 所 有 的 冲突 操作 对 必须 以 相同 的 次 序 执行 。 为 了 保证 这 一 点 ， 事务 在 释放 任何 一 个 锁 之 后 ， 痢 不 
允许 再 申请 新 的 锁 。 每 个 事务 的 第 一 个 阶段 是 一 个 “增长 ”阶段 ， 在 这 个 阶段 中 ， 事 务 不 断 地 获取 新 的 
锁 ; 在 第 二 个 阶段 中 ,事务 释放 它 的 锁 (一 个 “收缩 阶段 ") 。 这 称 为 两 阶段 加 锁 (two-phase locking)。 
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16. 2. 2 节 介 绍 了 事务 的 放弃 可 能 引起 及 数据 读 取 和 过 早 写 人 问题 ， 需 要 用 严格 执行 来 防止 这 些 问 
题 。 在 事务 的 严格 执行 中 ， 事 务 对 某 个 对 象 的 读 写 必须 等 到 其 他 写 同 一 对 象 的 事务 提交 或 放弃 之 后 才 
能 进行 。 为 了 保证 这 一 点 ， 所 有 在 事务 执行 过 程 中 获取 的 锁 必须 在 事务 提交 或 放弃 后 才能 释放 。 这 称 
为 严格 的 两 阶段 加 锁 (strict two-phase locking) 。 锁 可 以 阻止 其 他 事务 读 / 写 对 象 。 在 事务 提交 时 ， 为 了 

保证 可 恢复 性 ， 锁 必须 在 所 有 被 更 新 的 对 象 写 人 持久 存储 之 后 才能 释放 。 

l 服务 器 通常 包含 大 量 的 对 象 ， 而 一 个 事务 只 访问 其 中 少量 的 对 象 ， 不 太 可 能 与 其 他 并 发 事务 发 生 
冲突 。 并 发 控制 使 用 的 粒度 (granularity) 是 一 个 重要 问题 ， 因 为 如 果 并 发 控制 (例如 ， 锁 ) 只 能 同时 
应 用 到 所 有 对 象 上 ， 那么 服务 器 中 对 象 的 并 发 访问 范围 将 会 严重 受 限 。 在 我 们 的 银行 例子 中 ， 如 果 一 
次 将 分 行 中 的 所 有 客户 账户 都 锁 住 ， 那 么 在 任何 时 候 ， 只 有 一 个 柜员 能 够 进行 联机 事务 一 一 这 是 不 可 
接受 的 限制 。 

对 其 访问 必须 被 串 行 化 的 那 部 分 对 象 的 数量 应 尽 可 能 少 ， 即 尽量 限制 与 事务 的 每 个 操作 相关 的 那 
部 分 对 象 。 在 银行 例子 中 ， 分 行 包含 众多 账户 ， 每 个 账户 都 有 余额 。 每 次 银行 业务 操作 会 影响 一 个 或 
多 个 账户 余额 一 一 deposit 操作 和 withdraw 操作 影响 一 个 账户 余额 ， 而 branchTotal 影响 所 有 账户 余额 。 

下 面 介绍 的 并 发 控制 机 制 没有 假定 任何 特定 的 粒度 。 我 们 讨论 可 应 用 于 对 象 的 并 发 控制 协议 ， 其 
中 对 象 的 操作 可 以 抽象 成 对 象 上 的 read 和 write 操作 。 为 了 保证 协议 能 够 正常 工作 ， 每 个 read 和 write 
操作 在 对 象 上 的 效果 必须 是 原子 性 的 。 

并 发 控制 协议 用 于 解决 不 同事 务 中 的 操作 访问 同一 个 对 象 时 的 冲突 (conflict) 。 本 章 使 用 操作 之 间 
的 冲突 来 解释 协议 。 图 16-9 给 出 了 read 操作 和 write 操作 的 冲突 规则 ， 其 中 不 同事 务 对 同一 个 对 象 的 
read 操作 是 不 冲突 的 。 因 此 ， 对 read 和 write 操作 都 使 用 简单 的 互 斥 锁 会 过 多 地 降低 并 发 度 。 

可 以 采用 这 样 一 种 锁 机 制 ， 它 能 够 支持 多 个 并 发 事务 同时 读 取 某 个 对 象 ， 或 者 允许 一 个 事务 写 对 
Z, 但 它 不 允许 两 者 同时 存在 。 这 通常 称 为 “多 个 读者 /一 个 写 者 ”机 制 。 该 机 制 使 用 两 种 锁 : 读 锁 
(read lock) 和 写 锁 (write lock)。 在 事务 进行 读 操 作 之 前 ， 应 给 对 象 加 上 读 锁 。 在 事务 进行 写 操作 之 
前 ， 给 对 象 加 上 写 锁 。 如 果 不 能 设置 相应 的 锁 ， 那 么 事务 (MEP) 必须 等 待 ， 直 到 可 以 设置 相应 的 
锁 为 止 一 一 从 不 拒绝 客户 的 请 求 。 

由 于 不 同事 务 的 读 操作 不 冲突 ， 因 此 可 以 在 已 有 读 锁 的 对 象 上 设置 读 锁 。 所 有 访问 同一 对 象 的 事 
务 共享 它 的 读 锁 一 一 正 是 这 个 原因 ， 读 锁 有 时 也 被 称 为 共享 锁 (shared lock) 。 

操作 冲突 规则 包括 : 

规则 1: 如 果 事 务 了 已 经 对 某 个 对 象 进行 了 读 操 作 ， 那 么 并 发 事务 U 在 事务 了 提交 或 放弃 前 不 能 
写 该 对 象 。 

规则 2: WRES 下 已 经 对 某 个 对 象 进 行 了 写 操作 ， 那 么 并 发 事务 U 在 事务 了 提交 或 放弃 前 不 能 
写 或 读 该 对 象 。 

为 了 保证 规则 1， 如 果 一 个 对 象 上 有 另 一 个 事务 的 读 锁 ， 那 么 给 该 对 象 加 写 锁 的 请 求 将 被 延迟 。 
为 了 保证 规则 2， 如 果 一 个 对 象 上 有 另 一 个 事务 的 写 锁 ， 那 么 对 该 对 象 加 读 锁 或 写 锁 的 请 求 将 被 延迟 。 

图 16-15 给 出 了 任 一 对 象 上 读 锁 和 写 锁 的 相 容 性 。 表 中 的 第 一 列 是 对 象 上 已 设置 的 锁 类 型 ， 第 一 
行 是 请 求 的 锁 类 型 。 每 个 单元 中 的 项 分 别 指明 ， 当 对 象 在 另 一 个 事务 中 被 左边 类 型 的 锁 锁 住 时 ， 一 个 
事务 请 求 读 锁 或 写 锁 的 结果 。 











对 某 一 对 象 oo | 
已 设置 的 锁 none OK OK 
read OK 等 待 

write 等 待 等 待 





图 16-15 锁 的 相 容 性 


不 一 致 检索 和 更 新 丢失 是 在 没有 并 发 控制 机 制 〈 如 锁 ) 的 保护 下 ， 由 于 一 个 事务 的 读 操 作 和 男 一 
个 事务 的 写 操 作 之 间 的 冲突 引起 的 。 通 过 在 更 新 事务 之 前 或 之 后 运行 检索 事务 ， 可 以 避免 不 一 致 检索 
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问题 。 如 果 先 执行 检索 事务 ， 那 么 这 个 事务 上 的 读 锁 将 推迟 更 新 事务 的 执行 ; 如 果 后 执行 检索 事务 ， 
那么 检索 事务 对 读 锁 的 请 求 将 推迟 自身 的 执行 ， 直 到 更 新 事务 完成 为 止 。 

更 新 丢失 在 两 个 事务 同时 读 取 了 对 和 象 的 值 ， 然 后 利用 读 取 的 数据 来 计算 新 值 的 时 候 出 现 。 通 过 让 
后 面 的 事务 推迟 它们 的 读 操 作 直 到 前 面 的 事务 完成 为 止 ， 可 以 避免 更 新 丢失 问题 。 它 的 实现 方式 是 : 
每 个 事务 在 读 对 象 时 都 设置 一 个 读 锁 ， 然 后 在 写 该 对 象 时 将 读 锁 提 升 为 写 锁 。 这 样 ， 当 后 继 事务 要 求 
一 个 读 锁 时 ， 该 请 求 将 被 延迟 直到 当前 事务 完成 工作 为 止 。 

如 果 一 个 事务 的 读 锁 被 多 个 事务 共享 ， 那 么 该 事务 不 能 将 读 锁 提 升 为 写 锁 ， 因 为 它 可 能 会 与 其 他 
事务 拥有 的 读 锁 相 冲突 。 因 此 ， 该 事务 必须 请 求 一 个 写 锁 并 等 待 其 他 读 锁 被 释放 。 

锁 的 提升 是 指 将 某 个 锁 转 化 为 功能 更 强 的 锁 ， 即 互 斥 性 更 强 的 锁 。 如 图 16-15 所 示 ， 锁 的 相 容 性 
列表 给 出 了 锁 的 互 斥 性 强 弱 。 读 锁 人 允许 其 他 读 锁 ， 但 是 写 锁 不 允许 其 他 读 锁 。 两 者 都 不 允许 其 他 写 锁 。 
因此 写 锁 比 读 锁 互 斥 性 更 强 。 锁 可 以 被 提升 ， 因 为 结果 是 一 个 互 斥 性 更 强 的 锁 。 但 是 在 事务 提交 前 降 
低 一 个 事务 的 锁 却 是 不 安全 的 ， 因 为 结果 是 一 个 更 宽容 的 锁 ， 它 可 能 允许 执行 与 串 行 等 价 不 一 致 的 其 
他 事务 。 

图 16-16 总 结 了 在 严格 的 两 阶段 加 锁 实现 中 锁 的 使 用 规则 。 为 了 保证 遵守 这 些 规则 ， 客 户 不 能 直 
接 调 用 加 锁 和 解锁 操作 。 在 read 和 write 操作 的 请 求 将 被 应 用 到 可 恢复 对 象 上 时 ， 执 行 加 锁 ， 而 解锁 则 
由 事务 协调 者 的 commit 或 abort 操作 完成 。 


| 1. 当 某 个 事务 中 有 一 个 操作 访问 某 个 对 象 时 : 
D 如 果 该 对 象 未 被 加 锁 ， 那 么 它 被 加 上 锁 并 且 操 作 继续 执行 。 


2) 如 果 该 对 象 已 被 其 他 事务 设置 了 一 个 冲突 的 锁 ， 那 么 该 事务 必须 等 待 ， 
直到 对 象 被 解锁 为 止 。 


3 7 ER ROER ALE TTR, BART IRAP RIE 
To 





— 


4) 如 果 该 对 象 已 被 同一 事务 锁 住 ， 那 么 在 必要 时 提升 该 锁 ， 并 且 操 作 继续 执行 
〈 当 一 个 冲突 的 锁 阻 止 了 锁 的 提升 ， 那 么 使 用 规则 2)? 。 


2. 当 事务 被 提交 或 被 放弃 时 ， 服 务 器 将 释放 该 事务 在 对 象 上 施加 的 所 有 锁 。 











图 16-16 在 严格 的 两 阶段 加 锁 中 使 用 锁 


例如 ，CORBA 的 并 发 控制 服务 [OMG 1997a] 既 可 以 用 于 事务 的 并 发 控制 ， 也 可 以 在 不 使 用 事务 
时 直接 用 来 保护 对 象 。 该 服务 提供 了 一 种 将 资源 (例如 可 恢复 对 象 ) 和 一 个 锁 的 集合 〈 称 为 锁 集 ) 相 
关联 的 方式 。 锁 集 支 持 获 取 和 释放 锁 。 锁 集 的 lock 方法 用 来 获取 锁 ， 如 果 这 个 锁 暂 时 不 能 获取 时 ， 调 
用 者 将 被 阻塞 。 锁 集合 提供 的 其 他 方法 还 可 用 来 提升 和 释放 锁 。 事 务 性 的 锁 集 所 支持 的 方法 与 锁 集 一 
致 ， 但 要 求 将 事务 标识 符 作 为 参数 。 我 们 在 前 面 提 到 ，CORBA 的 事务 服务 给 所 有 在 同一 个 事务 中 的 客 
户 请 求 都 标 上 事务 标识 符 。 这 就 多 许可 恢复 对 象 在 被 访问 之 前 可 以 加 上 合适 的 锁 。 当 事务 提交 或 放弃 
AY, 事务 协调 者 负责 释放 所 有 的 锁 。 

由 于 锁 一 旦 获取 ， 就 一 直 要 保持 到 事务 提交 或 放弃 ， 所 以 图 16-16 中 的 规则 保证 了 事务 执行 的 严 
格 性 。 然 而 ， 没 必要 为 确保 严格 性 而 保持 读 锁 ， 读 锁 只 需 保 持 到 提交 请 求 或 放弃 请 求 为 止 。 

锁 的 实现 ” 锁 的 授予 通常 由 服务 器 上 的 一 个 对 象 实现 ， 我 们 称 该 对 象 为 锁 管理 器 Clock manager) 。 
锁 管 理 器 把 所 拥有 的 锁 存 放 在 诸如 散 列 表 之 类 的 数据 结构 中 。 每 个 锁 都 是 Lock 类 的 一 个 实例 ， 并 与 某 
个 对 象 相关 联 。 图 16-17 给 出 了 Lock 类 。Lock 类 的 每 个 实例 在 它 的 实例 变量 中 维护 以 下 信息 ; 

。 被 锁 住 对 象 的 标识 符 。 

。 当前 拥有 该 锁 的 事务 的 标识 符 〈 共 享 锁 可 以 有 若干 拥有 者 ) 。 

e 锁 的 类 型 。 

类 Lock 的 方法 都 是 同步 方法 ， 这 样 试图 获得 或 释放 锁 的 线程 将 不 会 相互 干扰 。 另 外 ， 当 试图 获取 
正 被 使 用 的 锁 时 ， 线 程 将 调用 wait 方法 等 待 该 锁 释 放 。 
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public class Lock { 
private Object object; //the object being protected by the lock 
private Vector holders; “the TIDs of current holders 
private LockType lockType; “the current type 


public synchronized void acquire(TransID trans, LockType aLockType ){ 
while(/*another transaction holds the lock in conflicing mode*/) { 
try £ 
wait(); 
jeatch ( InterruptedException e){/*...*/ } 
} 
iftholders.isEmpty()) { /no TIDs hold lock 
holders.addElement(trans); 
lockType = aLockType; 
else if(/*another transaction holds the lock, share it*/ )){ 


if/*this transaction not a holder*/) holders.addElement(trans); 
else if (/*this transaction is a holder but needs a more exclusive lock*/) 








lockType.promote(); 
} 
} 
public synchronized void release(TransID trans ){ 
holders.removeElement(trans); “remove this holder 
Hset locktype to none 
notifyAll(); 
d 


Oooo 
图 16-17 Lock 类 
acquire 方法 实现 了 图 16-15 和 图 16-16 给 出 的 规则 。 它 的 两 个 参数 分 别 是 事务 标识 符 和 该 事务 请 
求 的 锁 类 型 。 它 首先 测试 能 否 满足 该 请 求 。 如 果 另 一 个 事务 以 与 之 冲 罕 的 模式 拥有 锁 ， 那 么 它 调用 
wait， 将 调用 者 线程 挂 起 直到 接收 到 相应 的 notify 为 止 。 注 意 ，wait 调用 被 放 在 一 个 while 循环 中 ， 这 是 
因为 多 个 等 待 线程 被 通知 但 并 非 所 有 的 线程 都 可 以 继续 执行 。 当 条 件 最 终 被 满足 后 ， 该 方法 的 剩余 部 
分 将 设置 适当 的 锁 : 
se 如 果 没 有 其 他 事务 拥有 该 锁 ， 将 当前 事务 设 为 锁 的 拥有 者 并 设置 相应 的 锁 类 型 。 
。 否则 ， 如 果 有 其 他 的 事务 拥有 该 锁 ， 那 么 将 当前 事务 设 为 该 锁 的 共享 拥有 者 (除非 它 已 是 一 个 
拥有 者 ) 。 
。 否则， 如 果 该 事务 本 身 就 是 锁 的 拥有 者 ， 而 它 正 在 请 求 更 互 斥 的 锁 ， 那 么 提升 当前 锁 。 
release 方法 的 参数 是 需要 释放 锁 的 事务 的 标识 符 。 该 方法 从 锁 的 拥有 者 中 删除 该 事务 标识 符 ， 将 
锁 的 类 型 设置 为 none 并 且 调 用 notifygAll。 倘 若 有 多 个 事务 正在 等 待 获得 读 锁 ， 那 么 该 方法 通知 所 有 等 
待 的 线程 ， 使 得 它们 能 够 继续 执行 。 
图 16-18 给 出 了 LockManager 类 。 所 有 的 事务 要 求 加 锁 和 解锁 的 请 求 都 被 送 往 类 LockManager 的 某 
个 实例 。 
e setLock 方法 的 参数 指定 了 给 定 事 务 要 锁 住 的 对 象 和 锁 类 型 。 它 在 散 列 表 中 查找 该 对 象 相应 的 
锁 ， 如 果 没 有 则 创建 一 个 新 锁 ， 然 后 调用 该 锁 的 acquire 方法 。 
e unlock 方法 的 参数 指定 了 释放 锁 的 事务 ， 它 在 散 列 表 中 找 出 该 事务 拥有 的 所 有 锁 ， 对 每 个 锁 
分 别 调用 release 方法 。 
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public class LockManager { 
private Hashtable theLocks; 


public void setLock(Object object, TransID trans, LockType lockType) { 
Lock foundLock; 
synchronized(this) { 
// find the lock associated with object 
// if there isn’t one, create it and add to the hashtable 
} 
foundLock.acquire(trans, lockType); 
} 
// synchronize this one because we want to remove all entries 
public synchronized void unLock(TransID trans) { 
Enumeration e = theLocks.elements(); 
while(e. hasMoreElements()) { 
Lock aLock = (Lock) (e.nextElement()); 
if(/* trans is a holder of this lock*/ ) aLock.release(trans); 
} 
2 
} 














图 16-18 LockManager 类 


一 些 策略 问题 ; 我 们 注意 到 ， 当 若干 线程 等 待 同一 个 被 锁 住 的 项 时 wait 方法 的 语义 将 保证 每 个 
事务 都 会 被 处 理 。 在 上 面 的 程序 中 ， 冲 突 规 则 允许 锁 的 拥有 者 可 以 是 多 个 读者 或 一 个 写 者 。 因 此 除非 
拥有 者 拥有 写 锁 ， 和 否则 请 求 读 锁 总 能 成 功 。 

请 读者 考虑 下 面 的 问题 ， 

如 果 不 断 面临 读 锁 请 求 ， 那 么 写 事务 的 结果 会 如 何 ? 有 没有 其 他 的 实现 方法 ? 

当 某 个 拥有 者 拥有 一 个 写 锁 时 ， 那么 可 能 有 多 个 读者 和 写 者 在 等 待 。 请 读者 考虑 notifyAl 的 执行 
效果 以 及 其 他 实现 方法 。 如 果 读 锁 的 拥有 者 试图 提升 被 共享 的 锁 ， 那 么 它 将 被 阻塞 。 这 个 问题 有 解决 
方法 吗 ? 

幅 套 事务 的 加 锁 规则 ” 嵌 套 事务 的 锁 机 制 用 于 串 行 化 访问 对 象 ， 以 便 保 证 : 

1) 每 个 嵌 套 事务 集 是 一 个 实体 ， 它 不 能 观察 到 其 他 藤 套 事务 集 的 部 分 效果 。 

2) 一 个 腻 套 事务 集中 的 每 个 事务 不 能 观察 到 同一 事务 集中 其 他 事务 的 部 分 效果 。 

实施 第 一 个 规则 要 求 子 事务 成 功 执行 后 ， 由 它 的 父 事 务 继 承 子 事务 所 获得 的 所 有 锁 ， 随 后 ， 这 些 
被 继承 的 锁 继 续 由 更 高 层 的 事务 继承 。 注 意 ， 这 里 的 继承 是 从 底层 向 高 层 传递 。 因 此 ， 项 层 事务 最 终 
将 继承 典 套 事务 中 任何 层次 的 成 功 子 事务 所 获得 的 所 有 锁 。 这 种 方式 确保 了 这 些 锁 能 一 直 保 持 到 顶层 
事务 提交 或 放弃 ， 从 而 防止 不 同 柑 套 事务 集 的 成 员 观 察 到 其 他 事务 集 的 部 分 效果 。 

下 列 机 制 用 于 实施 第 二 个 规则 : 

© 父 事务 不 允许 和 子 事务 并 发 运行 。 如 果 父 事务 拥有 某 个 对 象 上 的 一 个 锁 ， 那 么 它 将 在 子 事务 执 

行 时 保留 该 锁 。 这 意味 着 ， 子 事务 在 执行 过 程 中 需要 临时 从 父 事务 处 获取 该 锁 。 

。 同 层次 的 子 事务 可 以 并 发 执行 ， 这 样 ， 在 它们 访问 同一 个 对 象 时 ， 锁 机 制 必须 串 行 化 它们 的 

访问 。 

下 列 规则 描述 了 锁 的 获取 和 释放 : 

© 如 果子 事务 获取 了 某 个 对 象 的 读 锁 ， 那 么 其 他 活动 事务 不 能 获取 该 对 象 的 写 锁 ， 只 有 该 子 事务 

的 父 事务 们 可 以 持 有 该 写 锁 。 

。 如 果子 事务 获取 了 某 个 对 象 的 写 锁 ， 那 么 其 他 活动 事务 不 能 获取 该 对 象 的 写 锁 或 读 锁 ， 只 有 子 

事务 的 父 事务 们 可 以 持 有 该 写 锁 或 读 锁 。 

。 当 子 事务 提交 时 ， 它 的 所 有 锁 由 它 的 父 事务 继承 ， 即 允许 父 事务 保留 与 子 事务 相同 模式 的 锁 。 

。 在 子 事务 放弃 时 ， 它 的 所 有 锁 都 被 丢弃 。 如 果 父 事务 已 经 保留 了 这 些 锁 ， 那 么 它 可 以 继续 保持 
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这 些 锁 。 
注意 ， 当 同 层次 的 子 事务 访问 同一 个 对 象 时 ， 子 事务 将 轮流 从 父 事务 处 获取 锁 ， 这 保证 了 它们 对 
公共 对 象 访问 的 串 行 性 。 
例如 ， 假 设 图 16-13 中 的 子 事务 了 、7 AT 访问 同一 个 对 象 ， 而 顶层 事务 了 不 访问 该 对 象 。 如 果 
子 事务 T, 最 先 访问 该 对 象 并 成 功 获取 了 一 个 锁 ， 那 么 在 四 执行 时 7, 将 该 锁 传 给 Ti, ， 并 在 Ti 结束 时 
收回 该 锁 。 当 T 运行 结束 时 ， 顶 层 事务 了 将 继承 该 锁 ， 并 保留 到 整个 嵌 套 事务 结束 。 子 事务 T, 在 执 
行 时 可 以 从 了 获取 该 锁 。 


16.4.1 死 锁 


使 用 锁 有 可 能 引起 死 锁 。 考 虑 图 16-19 中 锁 的 使 用 。 因 为 deposit 和 withdraw 方法 符合 原子 性 ， 所 
以 我 们 在 图 上 显示 它们 需要 获得 写 锁 一 一 虽然 实际 上 这 两 个 方法 是 先 读 取 账户 余额 ,然后 写 人 新 余额 。 
图 16-19 表示 两 个 事务 分 别 获取 了 一 个 账户 的 写 锁 ， 但 在 访问 另 一 方 锁定 的 账户 时 被 阻塞 。 这 就 是 死 

















锁 的 情景 两 个 事务 都 在 等 待 并 且 只 有 对 方 释放 锁 后 才能 继续 执行 。 
事务 了 事务 U 
| 操作 锁 操作 锁 
a. deposi(100) ; 给 4 加 写 锁 
b. deposit( 200) 给 8 加 写 镇 
b. withdraw( 100) 等 待 事务 U 
m 在 8 上 的 锁 a, withdraw(200) ; 等 待 事务 了 
e 在 4 上 的 锁 














图 16-19 写 锁 造 成 的 死 锁 


在 客户 涉及 交互 程序 的 情况 下 ， 死 锁 是 一 种 常见 的 情形 。 由 于 交互 程序 中 的 事务 通常 运行 时 间 较 
长 ， 造 成 很 多 对 象 被 锁 住 ， 从 而 阻止 了 其 他 客户 使 用 这 些 对 象 。 

我 们 注意 到 ， 在 结构 化 对 象 的 子 项 上 加 锁 有 助 于 避免 冲突 和 可 能 的 死 锁 情形 。 例 如 ， 日 记 中 的 某 
一 天 可 以 被 组 织 成 很 多 时 间 段 ， 每 个 时 间 段 可 以 为 了 更 新 而 独立 加 锁 。 如 果 应 用 需要 给 不 同 操作 加 不 
同 粒度 的 锁 ， 层 次 化 的 加 锁 机 制 是 非常 有 用 的 ， 参 见 16.4.2 节 。 

死 锁 的 定义 ” 死 锁 是 一 种 状态 ， 在 该 状态 下 一 组 事务 中 的 每 一 个 事务 都 在 等 待 其 他 事务 释放 某 个 
锁 。 等 待 图 (wait-for graph) 可 用 来 表示 当前 事务 之 间 的 等 待 关系 。 在 等 待 图 中 ， 结 点 表示 事务 ， 边 
表示 事务 之 间 的 等 待 关系 。 例 如 ， 如 果 事 务 7 在 等 待 事务 URRETA, 那么 在 等 待 图 中 有 一 条 从 结 
点 了 指向 结 点 的 边 。 图 16-20 中 的 等 待 图 表示 了 图 16-19 中 的 死 锁 的 情形 。 回 想 一 下 ， 图 中 的 死 锁 
是 由 于 事务 T 和 0U 都 试图 获取 对 方 拥 有 的 锁 造成 的 ， 因 此 事务 7 等 待 事务 5， 同 时 事务 U 等 待 事务 7。 
事务 之 间 的 依赖 关系 是 间接 的 一 通过 对 象 上 的 依赖 。 图 16-20 的 右 图 表示 事务 了 和 忌 分 别 拥有 和 等 竺 
的 对 象 。 由 于 每 个 事务 只 能 等 待 一 个 对 象 ， 因 此 可 以 把 对 象 从 等 待 图 中 删 去 ， 简 化 成 图 16-20 所 示 的 
左 图 。 





图 16-20 图 16-19 的 等 待 图 
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假设 像 图 16-21 一 样 ， 等 待 图 中 包含 环 路 7 一 7 一 … 一 一 7， 那么 环 路 中 的 每 一 个 事务 都 在 等 待 下 
一 个 事务 。 所 有 的 事务 都 被 阻塞 以 等 待 锁 。 由 于 没 
有 一 个 锁 会 释放 ， 因 此 这 些 事务 均 处 于 死 锁 状 态 。 
如 果 环 路 中 的 某 一 个 事务 被 放弃 ， 那么 它 的 锁 就 被 
释放 ， 从 而 打破 环 路 。 例 如， 如 果 图 16-21 中 的 事 
务 了 被 放弃 ,那么 它 将 释放 事务 了 正在 等 待 的 锁 ， 
即 事务 了 将 不 再 等 待 7。 

如 图 16-22 WEARER, 事务 T、U 和 VV 共享 
对 象 C 上 的 读 锁 ,事务 WW 拥有 对 象 B 上 的 写 锁 ， 而 
事务 V 正 在 等 待 获 取 对 象 B 的 锁 。 接 着 , 事务 T 和 到 请 求 对 象 C 上 的 写 锁 ， 那么 会 进入 死 锁 状态 : F 
务 T 等 待 U 和 V, VEW, TW EST. UMV, WE 16-22 的 左 图 所 示 。 这 表明 ， 尽 管 每 个 事 
务 一 次 只 能 等 待 一 个 对 象 ， 但 是 它 却 可 能 处 于 多 个 等 待 环 路 中 。 例 如 ， 事 务 了 在 环 路 VOW TOV A 
Vy WV 中。 








图 16-21 等待 图 中 的 环 路 





图 16-22 田 一 个 等 待 图 


在 这 个 例子 中 ， 假 设 事 务 了 被 放弃 。 这 将 释放 对 象 C 上 的 了 所 加 的 锁 , 了 所 在 的 两 个 环 路 均 被 
打破 。 

预防 死 锁 ” 死 锁 的 一 个 解决 方案 是 预防 发 生死 锁 。 一 个 简单 但 不 是 很 好 的 克服 死 锁 的 方案 是 让 每 
个 事务 在 开始 运行 时 就 锁 住 它 要 访问 的 所 有 对 象 。 为 了 避免 在 这 一 步 出 现 死 锁 ， 这 个 过 程 必须 是 原子 
性 的 。 该 方案 防止 了 死 锁 ， 但 是 却 带 来 了 不 必要 的 资源 访问 限制 。 而 且 ， 有 时 在 事务 开始 时 无 法 预计 
事务 将 访问 哪些 对 象 。 在 交互 应 用 中 这 种 情形 更 为 常见 ， 因 为 用 户 必 须 事 先 说 明 准备 使 用 哪些 对 象 ， 
这 在 浏览 型 应 用 〈 人 允许 用 户 查 找 他 们 事先 不 知道 的 对 象 ) 中 是 不 可 想象 的 。 死 锁 还 可 以 通过 以 预定 次 
序 加 锁 来 预防 ， 但 是 这 会 造成 过 早 加 锁 和 减少 并 发 度 。 

更 新 锁 CORBA 的 并 发 控制 服务 介绍 了 第 三 种 类 型 的 锁 一 一 更 新 锁 (upgrade), AEH T EÈ 
免 死 锁 。 造 成 死 锁 的 原因 通常 是 : 两 个 冲突 的 事务 首先 获得 读 锁 ， 接 着 试图 提升 它们 为 写 锁 。 一 个 在 
数据 项 上 加 更 新 锁 的 事务 可 以 读 该 数据 项 ， 但 该 锁 与 其 他 事务 加 在 同一 数据 项 上 的 更 新 相 冲 突 。 这 种 
类 型 的 锁 不 能 由 读 操 作 隐 式 地 涨 加 ， 而 必须 由 客户 添加 。 

死 锁 检测 ”通过 寻找 等 待 图 中 的 环 路 可 以 检测 死 锁 。 一 旦 检测 出 死 锁 ， 必 须 选 择 放 弃 一 个 事务 ， 
从 而 打破 环 路 。 

负责 死 锁 检 测 的 软件 通常 是 锁 管 理 器 的 一 部 分 。 它 必须 维护 一 个 等 待 图 ， 以 便 不 时 检测 死 锁 。 锁 
管理 器 的 setLock 和 unLock 操作 用 于 增加 或 删除 等 待 图 中 的 边 。 死 锁 检测 软件 在 图 16-22 左 图 表示 的 时 
刻 有 下 面 信息 : 








事务 等 待 
T U,V 
v W 


T, U, V 





当 锁 管理 器 因为 事务 了 请求 事 务 U 已 锁 住 对 象 上 的 锁 而 阻塞 请 求 时 ， 在 等 待 图 中 增加 边 7 一 V。 注 
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意 ， 如 果 锁 被 共享 ， 那 么 可 能 增加 多 条 边 。 一 旦 事务 U 释放 了 了 等 待 的 锁 并 允许 事务 了 继续 执行 时 ， [702] 
将 边 TU 从 等 待 图 中 删 去 。 练 习 16. 14 包含 了 死 锁 检测 实现 的 详细 讨论 。 如 果 一 个 事务 共享 一 个 锁 ， 
那么 该 锁 不 被 释放 ， 但 通 向 某 个 事务 的 边 被 删除 了 。 

每 次 有 新 边 加 入 等 待 图 时 ， 就 检测 一 下 是 否 存在 环 路 。 为 了 避免 不 必要 的 开销 ， 可 以 降低 检测 频 
率 。 一旦 检测 出 死 锁 ， 必须 选择 出 环 路 中 的 一 个 事务 并 将 其 放弃 。 此 时 ， 等 待 图 中 与 该 事务 有 关 的 结 
点 和 边 也 被 删除 。 这 发 生 在 被 放弃 的 事务 删除 其 锁 的 时 候 。 

选择 一 个 要 放弃 的 事务 不 是 个 简单 的 问题 。 要 考虑 的 因素 有 事务 的 运行 时 间 以 及 它 所 处 的 环 路 的 
数量 。 

Bit 锁 超 时 是 解除 死 锁 最 常用 的 方法 。 每 个 锁 都 有 一 个 时 间 期 限 。 一 旦 超过 这 个 期 限 ， 锁 将 成 
为 可 和 剥夺 的 。 如 果 没 有 其 他 事务 竞争 被 锁 住 的 对 象 ， 那么 具有 可 剥夺 锁 的 对 象 会 被 继续 锁 住 。 但 是 ， 
一 旦 有 一 个 事务 正在 等 待 由 可 剥夺 锁 保 护 的 对 象 时 ， 这 个 锁 将 被 等 竺 事务 剥夺 ( 即 对 象 被 解锁 ) ， 等 
待 事务 将 继续 执行 。 被 剥夺 锁 的 事务 通常 被 放弃 。 

使 用 超时 作为 死 锁 的 补救 方法 会 产生 很 多 问题 : 最 坏 的 情况 是 系统 中 本 没有 死 锁 ， 但 是 某 些 事务 
由 于 它们 的 锁 变 成 可 剥夺 的 ， 正 好 其 他 事务 在 等 待 它 们 的 锁 ， 因 此 这 些 事务 被 放弃 。 在 一 个 负载 很 大 
的 系统 中 ， 超 时 事务 的 数量 将 增加 ， 长 时 间 运 行 的 事务 经 常 被 放弃 。 另 外 ， 很 难 确定 适当 的 超时 时 间 
长 度 。 相 比 之 下 ， 如 果 使 用 死 锁 检测 ， 事 务 被 放弃 是 因为 已 经 出 现 死 锁 并 且 死 锁 检 测 能 决定 放弃 哪 一 
个 事务 。 

利用 锁 超时 ， 我 们 可 以 解除 图 16-19 中 的 死 锁 ， 如 图 16-23 所 示 。 事 务 了 在 对 象 4 上 的 锁 在 锁 超时 
后 变 为 可 剥夺 的 。 事 务 U 正在 等 待 获取 4 上 的 写 锁 ， 因 此 事务 了 被 放弃 并 释放 4 上 的 锁 ， 从 而 允许 事 
务 0 继续 执行 并 完成 该 事务 。 

















事务 7 事务 U 
操作 锁 操作 
a .deposit(100); 给 4 加 写 锁 
b.deposit(200) 给 8 加 写 锁 
b .withdraw{100) 等 待 事务 UL/ 在 B 上 的 锁 | a.withdraw(200); 等 待 事务 了 
R (超时 ) 在 4 上 的 锁 
7 在 4 上 的 锁 
变 成 可 和 剥夺 的 ， 
释放 4 上 的 锁 ， 放 弃 7 | = awithdraw(200); ”给 4 加 写 锁 释 放 
4，B 上 的 锁 





图 16-23 图 16-19 中 死 锁 的 解除 


当 事 务 访问 的 对 象 分 布 在 不 同 的 服务 器 上 时 ， 可 能 会 出 现 分 布 式 死 锁 。 在 分 布 式 死 锁 中 ， 等 待 图 
可 能 涉及 多 个 服务 器 上 的 对 象 。 关 于 分 布 式 死 锁 将 在 17. 5 节 讨 论 。 


16.4.2 ”在 加 锁 机 制 中 增加 并 发 度 


即使 加 锁 规 则 建立 在 读 操 作 和 写 操 作 之 间 的 冲突 上 ， 并 且 所 应 用 的 锁 的 粒度 也 尽 可 能 小 ， 但 仍然 
有 增加 并 发 度 的 空间 。 我 们 将 讨论 两 种 已 被 使 用 的 方法 。 在 第 一 种 方法 〈 双 版 本 加 锁 ) 中 ， 互 斥 锁 的 
设置 推迟 到 事务 提交 时 才 进 行 。 在 第 二 种 方法 〈 层 次 锁 ) 中 ， 使 用 混合 粒度 的 锁 。 

双 版 本 加 锁 ” 这 是 一 种 乐观 策略 ， 它 允许 一 个 事务 针对 对 象 的 临时 版 本 进行 写 操作 ， 而 其 他 的 事 
务 读 取 同一 对 象 提交 后 的 版 本 。 读 操作 只 在 其 他 事务 正在 提交 同一 个 对 象 时 才 等 待 。 这 种 机 制 比 读 - 
写 锁 具有 更 高 的 并 发 度 ， 但 是 写 事务 在 试图 提交 时 要 冒 等 待 甚至 被 拒绝 的 风险 。 一 个 事务 在 其 他 未 完 
成 事务 正在 读 取 对 象 时 ， 不 能 立即 提交 它 对 同一 对 象 的 写 操作 。 在 这 种 情况 下 ， 请 求 提 交 的 事务 必须 
等 待 读 事务 完成 ， 在 事务 等 待 提交 的 时 候 可 能 发 生死 锁 。 因 此 ， 在 事务 等 待 提交 时 ， 为 了 解除 死 锁 ， 
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-03| “能 需要 放弃 这 些 事务 。 

1 这 种 策略 用 在 严格 的 两 阶段 加 锁 上 时 ， 使 用 3 种 锁 ， 读 锁 、 写 锁 和 提交 锁 。 在 进行 事务 的 读 操 作 

104) 之 前 ,必须 在 对 象 上 设置 读 锁 一 一 除非 对 象 上 有 一 个 提交 锁 ， 否 则 读 锁 总 能 成 功 设置 ， 当 对 象 上 有 提 
交 锁 时 ， 事 务必 须 等 待 。 在 进行 事务 的 写 操作 之 前 ， 必 须 在 对 象 上 设置 写 锁 一 除非 对 象 上 有 一 个 提 


交 锁 或 写 锁 ， 否 则 写 锁 总 能 成 功 设 置 ， 当 对 象 上 有 提交 锁 或 读 锁 时 ， 事 务必 须 等 待 。 











当 事 务 协调 者 收 到 提交 事务 的 请 求 后 ， 它 试图 将 ET 
事务 的 所 有 写 锁 转换 为 提交 锁 。 如 果 其 中 某 些 对 象 上 对 某 个 对 旬 read write. commit 
还 有 读 锁 ， 那 么 要 提交 的 事务 必须 等 待 设置 这 些 锁 的 “| 已 设置 的 锁 none |Ook OK OK 
事务 完成 并 释放 读 锁 。 读 锁 、 写 锁 和 提交 锁 之 间 的 相 read | OK OK 
容 性 关系 如 图 16-24 所 示 。 write | OK 等 待 一 

commit | 等 待 ”等待 ”一 











在 性 能 方面 ， 双 版 本 加 锁 和 普通 的 读 - 写 锁 机 制 
有 两 个 主要 区 别 。 一 方面 ， 在 双 版 本 加 锁 机 制 中 , 读 图 16-2 锁 的 相 容 性 ( 读 锁 、 写 锁 和 提交 锁 ) 
操作 只 在 其 他 事务 提交 时 (而 不 是 事务 的 整个 执行 过 程 中 ) 才 会 延迟 。 在 大 多 数 情况 下 ， 提 交 协 议 只 
占 整个 事务 的 执行 时 间 中 很 少 的 一 部 分 时 间 。 另 一 方面 ， 某 个 事务 的 读 操作 可 能 会 推迟 其 他 事务 的 
提交 。 

层次 锁 .对 于 某 些 应 用 ， 适 合 一 个 操作 的 锁 粒 度 不 一 定 适合 另 一 个 操作 。 在 我 们 的 银行 例子 中 ， 
大 多 数 操作 要 求 在 账户 粒度 上 加 锁 。 但 是 ，branchTotal 操作 有 所 不 同 ， 它 读 取 所 有 账户 的 余额 值 ， 因 
此 应 该 在 所 有 账户 上 加 上 读 锁 。 为 了 减少 加 锁 开销 ， 应 当 允 许 有 混合 粒度 的 锁 。 

Gray [1978] 提出 使 用 具有 不 同 粒度 的 层次 锁 。 在 每 一 层 ， 设 置 父 锁 与 设置 等 价 的 子 辈 锁具 有 相 
同 的 效果 。 这 样 可 以 有 效 减 少 需要 设置 的 锁 数量 。 在 我 们 的 银行 例子 中 ， 支 行 是 父 结 点 ， 而 账户 是 子 
结 点 ， 如 图 16-25 所 示 。 

银行 支行 





A B C 账户 
图 16-25 银行 例子 的 锁 层 次 


混合 粒度 的 锁 在 日 记 系 统 中 很 有 用 ， 这 里 的 数据 按照 每 周 的 天 数 分 成 不 同 部 分 ， 而 每 天 的 数据 又 
可 以 继续 按时 间 段 进行 细 分 ， 如 图 16-26 所 示 。 查 看 一 周 情况 的 操作 需要 在 整个 层次 的 最 顶层 加 锁 ， 
而 输入 约会 的 操作 只 需要 在 某 个 时 间 段 上 加 写 锁 。 加 在 星期 上 的 读 锁 会 阻塞 任 一 子 结构 〈 例 如 该 星期 
每 一 天 的 所 有 时 间 段 上 ) 的 写 操作 。 
“I 


T T T T 
星期 一 星期 二 星期 三 星期 四 星期 五 








时 间 段 
T T T T 
9:00~10:00 10:00~11:00 11:00~12:00 12:00~13:00 13:00~14:00 14:00~15:00 15:00~16:00 





图 16-26 日 记 的 锁 层次 


在 Gray 的 机 制 中 ， 层 次 中 的 每 个 结 点 都 可 以 加 锁 。 此 后， 锁 的 拥有 者 能 显 式 访问 该 结 点 并 隐 式 访 
问 它 的 子 结 点 。 在 图 16-25 所 示 的 例子 中 ， 对 支行 的 读 / 写 锁 隐 含 地 对 所 有 账户 加 上 了 读 / 写 锁 。 在 给 
子 结 点 加 上 读 / 写 锁 时 ， 需 要 在 它 的 父 结 点 和 祖先 结 点 RA) 上 设置 一 个 读 / 写 试图 锁 。 这 个 试图 
锁 和 其 他 类 型 的 试图 锁 是 相 容 的 ， 但 是 和 读 / 写 锁 冲 突 。 图 16-27 给 出 了 层次 锁 的 相 容 性 表 。Cray 还 提 
出 了 第 三 种 类 型 的 试图 锁 一 一 该 锁 结合 了 读 锁 和 写 试图 锁 的 性 质 。 
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要 设置 的 锁 
对 某 个 对 象 read write I- read I- write 
已 设置 的 锁 none OK OK OK OK 
read OK 等 待 OK 等 待 
write 等 待 等 待 等 待 等 待 
I-read OK 等 待 OK OK 
I-write 等 待 等 待 OK OK 








图 16-27 层次 锁 的 锁 相 容 性 表 


在 我 们 的 银行 例子 中 ，branchTotal 操作 请 求 在 支行 上 加 上 读 锁 ， 即 隐 含 地 对 所 有 账户 加 上 了 读 锁 。 
deposit 操作 需要 在 余额 上 设置 写 锁 ， 但 是 它 首先 试图 在 支行 上 加 上 写 试 图 锁 。 图 16-27 中 的 规则 可 以 
防止 这 两 个 操作 并 发 运行 。 

当 需 要 混合 粒度 的 锁 时 ， 层 次 锁具 有 减少 锁 数 量 的 优势 。 但 是 它 的 相 容 性 表 和 锁 提 升 规则 更 加 
复杂 。 

混合 粒度 的 锁 允 许 每 个 事务 按 其 需要 锁 住 部 分 数据 。 一 个 访问 大 量 对 象 的 长 事务 可 能 需要 锁 住 整 
个 系统 ， 而 一 个 短 事务 只 需 锁 住 细 粒 度 的 数据 。 

CORBA 并 发 控制 服务 支持 可 变 粒 度 的 加 锁 ， 包 括 试图 读 和 试图 写 锁 类 型 。 它 们 可 按 上 述 方式 使 
用 ， 从 而 利用 在 层次 结构 化 数据 中 应 用 不 同 粒度 锁 的 好 处 。 


16.5 ”乐观 并 发 控制 


Kung 和 Robinson [1981] 指出 了 锁 机 制 的 许多 固有 的 不 是 ， 并 提出 了 另 一 种 串 行 化 事务 的 乐观 方 
法 来 避免 锁 机 制 的 缺点 。 我 们 将 加 锁 的 缺点 总 结 如 下 : 
© 锁 的 维护 带 来 了 新 的 开销 ， 这 些 开 销 在 不 支持 对 共享 数据 并 发 访问 的 系统 中 是 没有 的 。 即 使 是 
REFS (查询 ) ， 它 不 可 能 改变 数据 的 完整 性 ， 通 常 仍然 需要 利用 锁 来 保证 数据 在 读 取 时 不 
会 被 其 他 事务 修改 。 但 是 锁 只 在 最 坏 的 情况 下 起 作用 。 
例如 ， 有 两 个 并 发 执行 的 客户 进程 将 n 个 对 象 的 值 增 1。 如 果 这 两 个 客户 程序 同时 开始 执 
行 并 运行 相同 的 时 间 ， 但 它们 访问 对 象 的 次 序 不 相关 ， 并 使 用 独立 的 事务 来 访问 并 增加 对 象 的 
值 ， 那 么 这 两 个 程序 同时 访问 到 同一 个 对 象 的 概率 只 有 1/n， 因 此 每 n 个 事务 只 有 1 个 才 真 正 
需要 加 锁 。 
使 用 锁 会 引起 死 锁 。 预 防 死 锁 会 严重 降低 并 发 度 ， 因 此 必须 利用 超时 或 者 死 锁 检 测 来 解除 死 
锁 ， 但 这 两 种 死 锁 解除 方法 对 交互 程序 来 说 都 不 理想 。 
。 为 了 避免 连锁 放弃 ， 锁 必须 保留 到 事务 结束 才能 释放 。 这 会 显著 地 降低 潜在 的 并 发 度 。 
Kung 和 Robinson 提出 的 另 一 个 方法 是 一 种 “乐观 ”策略 ， 这 是 因为 他 们 发 现 这 样 一 个 现象 ， 即 在 
大 多 数 应 用 中 ， 两 个 客户 事务 访问 同一 个 对 象 的 可 能 性 是 很 低 的 。 事 务 总 是 能 够 执行 ， 就 好 像 事 务 之 
间 不 存在 冲突 一 样 。 当 客户 完成 其 任务 并 发 出 closeTransaction 请 求 时 ， 再 检测 是 否 有 冲突 。 如 果 确 实 
存在 冲突 ， 那 么 一 些 事务 将 被 放弃 ， 并 需要 客户 重新 启动 该 事务 。 每 个 事务 分 成 下 面 儿 个 阶段 : 
e 工作 阶段 : 在 事务 的 工作 阶段 ,每 个 事务 拥有 所 有 它 修改 的 对 象 的 临时 版 本 。 这 个 临时 版 本 是 
对 象 最 新 提交 版 本 的 拷贝 。 使 用 临时 版 本 ， 事 务 便 可 以 在 工作 阶段 放弃 或 者 在 与 其 他 事务 发 生 
冲突 不 能 通过 验证 时 放弃 (而 不 产生 副作用 ) 。 读 操作 总 是 可 以 立即 执行 一 一 如 果 事 务 的 临时 
版 本 已 经 存在 ， 那 么 读 操作 访问 这 个 临时 版 本 ; 否则， 访问 对 象 最 新 提交 的 值 。 写 操作 将 对 象 
的 新 值 记 录 成 临时 值 〈( 这 个 临时 值 对 其 他 事务 是 不 可 见 的 ) 。 当 系统 中 存在 多 个 并 发 事务 时 ， 
一 个 对 象 有 可 能 存在 多 个 临时 版 本 。 另 外 ， 每 个 事务 还 维护 被 访问 对 象 的 两 个 集合 : RRS 
(read set) 包含 事务 读 的 所 有 对 象 ; SRS (write set) 包含 事务 写 的 对 象 。 注 意 ， 所 有 的 读 
操作 都 是 在 对 象 的 提交 版 本 〈 或 它们 的 副本 ) 上 执行 ， 因 此 不 会 出 现 脏 数 据 读 取 。 
© 验证 阶段 ; 在 接收 到 closeTransaction 请 求 时 验证 事务 ， 判 断 它 在 对 象 上 的 操作 是 否 与 其 他 事务 
对 同一 对 象 的 操作 相 冲 突 。 如 果 验 证 成 功 ， 那 么 该 事务 就 允许 提交 ， 否 则 ， 必 须 使 用 某 种 冲突 
解除 机 制 ， 或 者 放弃 当前 事务 ， 或 者 放弃 其 他 与 当前 事务 冲突 的 事务 。 


705 
t 
706 


418 ， 第 16 章 事务 和 并 发 控制 


。 更 新 阶段 : 当 事 务 通过 验证 以 后 ， 记 录 在 所 有 临时 版 本 中 的 更 新 将 持久 化 。 只 读 事 务 可 在 通过 
验证 后 立即 提交 。 写 事务 在 对 象 的 临时 版 本 记录 到 持久 存储 后 即 可 提交 。 

事务 的 验证 验证 过 程 使 用 读 - 写 冲 突 规则 来 确保 某 个 事务 的 执行 对 其 他 重合 (overlapping) 事 
务 而 言 是 申 行 等 价 的 ， 重 倒 事 务 是 指 在 该 事务 启动 时 还 没有 提交 的 任何 事务 。 为 了 带 助 完成 验证 过 程 ， 
每 个 事务 在 进入 验证 阶段 之 前 ( 即 在 客户 发 出 closeTransaction 时 ) 被 赋予 一 个 事务 号 。 如 果 事 务 通过 
验证 并 且 成 功 完 成 ,那么 它 保 留 这 个 事务 号 ; 如 果 事 务 未 通过 验证 并 被 放弃 ， 或 者 它 是 只 读 事 务 ， 那 
么 这 个 事务 号 被 释放 以 便 重 用 。 事 务 号 是 整数 ， 并 按照 升序 分 配 ， 因 此 事务 号 定义 了 该 事务 所 处 的 时 
闻 位 置 一 一 一 个 事务 总 是 在 序号 比 它 小 的 事务 之 后 完成 它 的 工作 阶段 。 也 就 是 说 ， 如 果 i<j， 那么 事 
SSA T, 的 事务 总 是 在 事务 号 为 了 的 事务 之 前 。( 如 果 在 工作 阶段 的 开始 分 配 事务 号 ， 那 么 一 个 事务 
若 在 另 一 个 具有 更 小 事务 号 的 事务 之 前 到 达 工 作 阶 段 的 结尾 ， 就 要 在 验证 前 一 直 等 待 前 者 完成 。) 

对 事务 也 的 验证 测试 是 基于 事务 了 AT, 之 间 的 操作 冲突 完成 的 。 FT, HERRA T, 而 言 是 可 
串 行 化 的 ， 那么 它们 的 操作 必须 符合 下 面 的 规则 : 





T, T; 规 m 
write read 1) 不 能 读 取 T, 写 的 对 象 
read write 2) T, 不 能 读 取 T; 写 的 对 象 
write write 3) T; ARES 7, BERR, HET, 不 能 写 7; 写 的 对 象 


与 事务 的 工作 阶段 相 比 ， 验 证 过 程 和 更 新 过 程 通常 只 需要 很 短 的 时 间 ， 因 此 可 以 采用 一 个 简单 
的 方法 : 每 次 只 允许 一 个 事务 处 于 验证 和 更 新 阶段 。 当 任何 两 个 事务 都 不 会 在 更 新 阶段 重 倒 时 ， 规 
则 3 自动 满足 。 注 意 ， 在 写 操作 上 的 这 个 限制 和 不 发 生 脏 数据 读 取 这 个 事实 ， 将 产生 事务 的 严格 执 
行 。 为 了 防止 重 委 ， 整 个 验证 和 更 新 阶段 被 实现 成 一 个 临界 区 ， 使 得 每 次 只 能 有 一 个 客户 执行 。 为 
了 增加 并 发 度 ， 验 证 和 更 新 的 部 分 操作 可 以 在 临界 区 之 外 实现 ， 但 是 必须 串 行 地 分 配 事务 号 。 我 们 
注意 到 ， 在 任何 时 刻 ， 当 前 的 事务 号 就 像 一 个 伪 时 钟 ， 每 当 事 务 成 功 结束 ， 这 个 时 钟 就 产生 一 次 
MR o 

事务 的 验证 必须 保证 事务 也 MT 的 对 象 之 间 的 重生 遵守 规则 1 和 规则 2。 有 两 种 形式 的 验证 一 一 
向 前 验证 和 向 后 验证 [ Harder 1984]。 向 后 验证 检查 当前 事务 和 其 他 较 早 重要 事务 之 间 的 冲突 ， 向 前 验 
证 检查 当前 事务 和 其 他 较 晚 的 事务 之 间 的 冲突 。 

向 后 验证 ”由 于 较 早 的 重 委 事 务 的 读 操作 在 T, 验证 之 前 进行 ， 因 此 它们 不 会 受 当前 事务 写 操作 的 
影响 (满足 规则 1). T, 的 验证 过 程 将 检查 它 的 读 集 (52 7, 的 读 操 作 影 响 的 对 象 ) 是否 和 其 他 较 早 的 
BESS T, 的 写 集 是 否 重合 《规则 2)。 如 果 存 在 重合， 验证 失败 。 

设 startTn 是 事务 T, 进入 其 工作 阶段 时 系统 已 分 配 (给 其 他 已 提交 事务 ) 的 最 大 事务 号 ,finishTn 
是 进入 验证 阶段 时 系统 已 分 配 的 最 大 事务 号 。 下 面 的 程序 描述 了 7 的 验证 算法 : 


boolean valid = true; 
for (int T, = startTn+1; T, <= finishTn; T+ +)f 
if (T, tnik k5 T, 5 k42) valid = false; 

} 

图 16-28 给 出 了 7 了, 验证 过 程 中 需要 考虑 的 重 琵 事务。 时间 从 左 至 右 增 加 。 政 、 于 AT, 是 较 早 提交 
的 事务 。 也 在 7, 开始 之 前 提交 。7, AIT, ET, 完成 其 工作 阶段 前 提交 ， 并 且 有 starkTn + 1 =T,, fin- 
ishTn = 了。 向 后 验证 过 程 必须 比较 T, 的 读 集 和 T, T, WER. 

向 后 验证 比较 被 验证 事务 的 读 集 和 已 提交 事务 的 写 集 。 因 此 一 旦 验证 失败 ， 解 决 冲突 的 唯一 方法 
就 是 放弃 当前 进行 验证 的 事务 。 

在 向 后 验证 中 ， 没 有 读 操作 (只 有 写 操 作 ) 的 事务 无 需 进行 验证 。 

向 后 验证 的 乐观 并 发 控制 要 求 最 近 提 交 事 务 中 对 象 的 已 提交 版 本 的 写 集合 必须 保留 ， 直 到 没有 可 
能 发 生 冲 突 的 未 验证 重要 事务 。 每 当 一 个 事务 成 功 通过 验证 ， 它 的 事务 号 、start7pn 和 写 集合 被 记录 在 
前 述 的 事务 列表 中 ， 这 个 列表 由 事务 服务 维护 。 注 意 ， 这 个 列表 按 事务 号 排序 。 如 果 有 长 事务 存在 ， 
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较 早 事务 的 写 集合 的 保留 将 是 一 个 问题 。 例 如 在 图 16-28 4, Ta 7. T AT, 的 写 集合 必须 保留 到 活 
动 事务 active, 结束 之 后 。 值 得 注意 的 是 ， 尽 管 这 个 活动 事务 有 事务 标识 符 ， 但 它 还 没有 事务 号 。 
工作 阶段 验证 阶段 更 新 阶段 











较 早 提交 的 事务 

















正在 验证 的 事务 ~ 了 | Er 











active, | | 
以 后 的 活动 事务 -一 active, [一 —— 
图 16-28 事务 的 验证 过 程 


向 前 验证 在 事务 T, 的 向 前 验证 中 ，7, 的 写 集合 要 与 所 有 重合 的 活动 事务 的 读 集合 进行 比较 一 一 
活动 事务 是 那些 处 在 工作 阶段 中 的 事务 (规则 1)。 规 则 2 自动 满足 ， 因 为 活动 事务 在 7, 完成 之 前 不 会 
进行 写 操作 。 设 活动 事务 具有 【〔 连 续 的 ) 事务 标识 符 (从 active, ~ actioew) ， 那 么 下 面 程序 描述 了 了 7, 的 
向 前 验证 算法 : 

boolean valid = true; 

for (int T= active, ; Ti<= activey; Tutt){ 

if (T5 k-i TMi R48 X) valid = false; 

} 

在 图 16-28 中 ,了 的 写 集合 必须 和 事务 active, 和 active, 的 读 集合 进行 比较 。( 向 前 验证 应 该 允许 活 
动 事务 的 读 集合 在 验证 过 程 和 写 入 过 程 中 改变 。) 由 于 被 验证 事务 的 读 集合 没有 包括 在 验证 过 程 中 ， 因 
此 只 读 事 务 总 能 通过 验证 。 因 为 与 被 验证 事务 进行 比较 的 事务 仍 是 活动 的 ， 所 以 发 生 冲 突 时 ， 可 以 选 
择 或 者 放弃 被 验证 事务 或 者 用 其 他 方法 解决 冲突 。Hirder [1984] 提出 了 下 面 几 个 策略 : 

。 推迟 验证 ， 直 到 冲突 事务 结束 为 止 。 但 是 这 不 能 保证 被 验证 的 事务 在 将 来 一 定 能 够 通过 验证 ， 

在 验证 完成 前 ， 还 是 有 可 能 启动 会 产生 冲突 的 活动 事务 。 

。 放弃 所 有 有 冲突 的 活动 事务 ， 提 交 已 验证 的 事务 。 

。 放弃 被 验证 事务 。 这 是 最 简单 的 策略 ， 但 是 由 于 冲突 的 活动 事务 可 能 在 将 来 被 放弃 ， 因 此 这 种 

策略 会 造成 被 验证 事务 的 不 必要 放弃 。 

向 前 验证 和 向 后 验证 的 比较 ”我 们 看 到 ， 向 前 验证 在 处 理 冲 突 时 有 较 强 的 灵活 性 ， 而 向 后 验证 只 
有 一 种 选择 ， 即 放弃 被 验证 的 事务 。 通 常 ， 事 务 的 读 集合 比 写 集合 大 得 多 。 因 此 ， 向 后 验证 将 较 大 的 
读 集合 和 较 早 事务 的 写 集合 进行 比较 ; 而 向 前 验证 将 较 小 的 写 集合 和 活动 事务 的 读 集合 比较 。 我 们 注 
意 到 ， 向 后 验证 涉及 存储 已 提交 事务 写 集合 (直到 不 再 需要 它们 为 止 ) 的 开销 。 另 一 方面 ， 向 前 验证 
不 得 不 允许 在 验证 过 程 中 开始 新 事务 。 

饥饿 ”在 一 个 事务 被 放弃 后 ， 它 通常 由 客户 程序 重新 启动 。 但 是 这 种 依赖 放弃 和 重新 启动 事务 的 
机 制 不 能 保证 事务 最 终 能 够 通过 验证 检查 ， 这 是 因为 每 次 重新 运行 后 它 都 有 可 能 与 其 他 事务 访问 相同 
的 对 象 从 而 产生 冲突 。 这 种 阻止 事务 最 终 提交 的 现象 称 为 饥饿 (starvation) 。 

出 现 饥 雏 的 情形 很 少 ， 但 是 使 用 了 乐观 并 发 控制 的 服务 器 必须 保证 客户 的 事务 不 能 反复 放弃 。Kung 
和 Robinson 认为 ， 服 务 器 在 检测 到 事务 被 多 次 放弃 后 ， 能 够 保证 该 事务 不 再 被 放弃 ， 他 们 建议 一 旦 服务 
器 检测 到 这 样 的 事务 ， 服 务 器 应 该 让 该 事务 利用 由 信和 号 量 保护 的 临界 区 对 服务 器 上 的 资源 进行 互 斥 访问 。 


16.6 MARHE 
在 基于 时 间 稚 排序 的 并 发 控制 机 制 中 ， 事 务 中 的 每 一 个 操作 在 执行 之 前 要 先进 行 验证 。 如 果 该 操 
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作 不 能 通过 验证 ， 那 么 事务 将 被 立即 放弃 ， 然 后 由 客户 重新 启动 该 事务 。 每 个 事务 在 启动 时 被 赋予 一 
个 唯一 的 时 间 锥 。 这 个 时 间 稚 定义 了 该 事务 在 事务 时 间 序 列 中 的 位 置 ， 来 自 不 同事 务 的 操作 请 求 可 以 
根据 它们 的 时 间 惟 进行 全 排序 。 基 本 的 时 间 戳 排序 规则 基于 操作 之 间 的 冲突 ， 也 是 非常 简单 的 : 

。 只 有 在 对 象 最 后 一 次 读 访 问 或 写 访问 是 由 一 个 较 早 的 事务 执行 的 情况 下 ， 事务 对 该 对 象 的 写 请 

求 是 有 效 的 。 只 有 在 对 象 的 最 后 一 次 写 访问 是 由 一 个 较 早 的 事务 执行 的 情况 下 ， 事 务 的 对 该 对 
象 的 读 请 求 是 有 效 的 。 

这 个 规则 假设 系统 中 的 每 个 对 象 只 有 一 个 版 本 ， 并且 每 个 对 象 一 次 只 能 由 一 个 事务 访问 。 如 果 每 
个 事务 都 有 其 所 访问 对 象 的 临时 版 本 ， 那 么 多 个 并 发 事务 可 同时 访问 一 个 对 象 。 通 过 细 化 时 间 惟 排序 
规则 可 以 保证 每 个 事务 访问 的 对 象 版 本 是 一 致 的 ， 同 时 它 也 必须 保证 对 象 的 临时 版 本 按 事务 的 时 间 稚 
所 决定 的 顺序 提交 。 这 是 通过 在 必要 时 让 事务 等 待 ， 以 便 使 较 早 的 事务 完成 它们 的 写 操作 来 实现 的 。 
这 些 写 操作 可 在 closeTransaction 返回 之 后 执行 ， 这 样 ， 客 户 就 不 用 等 待 了 。 但 是 当 读 操作 需要 等 待 较 
早 的 事务 完成 时 ， 客 户 必 须 等 待 。 由 于 事务 总 是 等 待 较 早 的 事务 〈 在 等 待 图 中 不 可 能 形成 环 ) ， 因 此 
不 会 引起 死 锁 。 

可 以 根据 服务 器 的 时 钟 来 给 时 间 戳 赋值， 或 者 利用 前 面 介绍 的 “ 伪 时 间 ” 来 给 时 间 戳 赋值 ， 伪 时 
间 基 于 一 个 计数 器 ， 每 次 获取 时 间 戳 的 请 求 都 会 使 计数 器 加 1。 关 于 在 事务 服务 是 分 布 的 、 一 个 事务 
涉及 几 个 服务 器 的 环境 中 如 何 生成 时 间 戳 的 问题 ， 我 们 将 在 第 17 章 中 进行 讨论 。 

下 面 我 们 描述 SDD-1 [Bernstein et al. 1980] 系统 中 采用 的 并 由 Ceri 和 Pelagatti [1985] 描述 的 基 
于 时 间 稚 的 并 发 控制 方法 。 

和 其 他 方法 一 样 ， 写 操作 被 记录 在 对 象 的 临时 版 本 中 并 对 其 他 事务 是 不 可 见 的 ， 直 到 调用 了 close- 
Transaction 请 求 并 提交 了 事务 。 每 个 对 象 有 一 个 写 时 间 稚 、 若 干 临时 版 本 和 一 个 读 时 间 蕉 集合 ， 其 中 
每 个 临时 版 本 都 有 一 个 写 时 间 蕉 。 (已 提交 ) 对 象 的 写 时 间 惟 比 它 的 所 有 临时 版 本 都 要 早 ， 它 的 所 有 
读 时 间 稚 可 以 用 其 中 的 最 大 值 来 代表 。 每 当 服务 器 接受 一 个 事务 对 某 个 对 象 的 写 操 作 时 ， 服 务 器 就 创 
建 该 对 象 的 一 个 新 的 临时 版 本 ， 并 将 该 临时 版 本 的 写 时 间 戳 设置 为 这 个 事务 的 时 间 惟 。 事 务 的 读 操 作 
作用 于 时 间 规 为 小 于 该 事务 时 间 米 的 最 大 写 时 间 戳 的 对 象 版 本 上 。 一 有 旦 事务 对 某 个 对 象 的 读 操作 被 接 
受 ， 该 事务 的 时 间 戳 就 被 加 入 到 读 时 间 戳 集合 中 。 当 事务 被 提交 时 ， 临 时 版 本 的 值 就 变 成 对 象 的 值 ， 
临时 版 本 的 时 间 戳 变 成 相应 对 象 的 时 间 戳 。 

在 时 间 截 排序 中 ， 需 要 检查 事务 对 对 象 的 每 个 读 / 写 操作 请 求 ， 看 它 是 否 与 操作 冲突 规则 一 致 。 当 
前 事务 T, 的 请 求 会 与 其 他 事务 T, 之 前 的 操作 相 冲 突 ，7, 的 时 间 惟 表明 它们 应 该 比 工 晚 。 图 16-29 给 
出 了 这 些 规则 ， 其 中 7, >T, 表示 T, MET T, 1, <7, HAN T PFT, 
mT. ， 
1. write read WRT >T., MATAR S ETIRI R, IXBORT. > AR RREAK R R 


2. write write RTT., PATRESE TKNK, LERT > DHERA R 
3. read write 如 果 7> 刀 ， 那 么 7. 不 能 读 被 7 写 过 的 对 象 ， 这 要 求 7.> 已 提交 对 象 的 写 时 间 戳 












图 16-29 ”时间 稚 排 序 中 的 操作 冲突 


时 间 惟 排序 的 写 规则 : 通过 结合 规则 1 和 规则 2， 我 们 可 以 得 到 下 列 规 则 ， 该 规则 用 于 决定 是 否 接 
受 事务 也 对 对 象 D 执行 写 操 作 : 
if (T, PD MRK RM & 有 & 人 > 站 的 提交 版 本 上 的 写 时 间 稚 /) 
在 刀 的 临时 版 本 上 执行 写 操作 ， 写 时 间 共 置 为 Te 
else /* 写 操作 太 晚 了 V 
AAFS To 
如 果 写 时 间 戳 为 了 的 对 象 临时 版 本 已 经 存在 ， 那 么 写 操作 直接 作用 于 这 个 版 本 ， 否 则 服务 器 创建 
一 个 新 的 临时 版 本 并 且 为 其 标记 上 写 时 间 惟 们 。 值 得 注意 的 是 , “到 达 太 晚 的 ” 写 操作 将 引起 事务 放 
弃 ， 这 里 的 “ 太 晚 ”是 指 具 有 后 来 时 间 惟 的 事务 已 经 读 或 写 了 这 个 对 象 。 
图 16-30 说 明了 事务 T, 的 写 操作 的 执行 情况 ， 其 中 T 宕 对 象 的 最 大 读 时 间 稚 (图 上 没有 给 出 读 时 
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HR). ERa), b) Ale) H, 7 > 对 象 的 提交 版 本 的 写 时 间 截 ， 因 此 服务 器 创建 一 个 写 时 间 惟 为 
T: 的 对 象 临时 版 本 ， 并 将 其 插入 到 按 事务 时 间 稚 排序 的 临时 版 本 列表 中 。 在 情况 4) P, T, < 对 象 提 
ZORA HYSTA, FUSES T, 被 放弃 。 




















之 前 È 之 前 a G 
之 后 T, T, 之 后 n L n 
nm M baga | ™ 
事务 中 止 
之 前 o 5 之 前 n 
之 后 | ff, 71, 之 后 
> WN > WH 
c) T SEE d) TRE 
图 例 T TO 时 事务 7 产生 的 对 象 〈 写 时 间 惟 为 7) 
提交 版 本 ”临时 版 本 ARDERE 


图 16-30 ” 写 操 作 和 时 间 截 


时 间 戳 排序 的 读 规 则 : 应 用 规则 3， 我 们 可 以 得 到 下 面 的 规则 ， 该 规则 用 于 决定 马上 接受 、 等 待 
或 拒绝 事务 T, 对 对 象 D 执行 读 操 作 的 请 求 : 
if (T:> DD 提交 版 本 的 号 时 间 鹤 ) { 
设 Dseiecied 是 D 的 具有 最 大 写 时 间 玲 的 版 本 Ti; 
if (Dretectea UHR) 
FE Detected ALK BILE; 
else 
等 待 直到 形成 Dseieced 版 本 的 事务 提交 或 放 痉 ,然后 重新 应 用 读 规 则 ; 


} else 
放弃 事务 72: 
注意 以 下 几 点 : 
。 WRES T, 已 经 写 了 对 象 刀 的 临时 版 本 ， 那 么 读 操 作 将 针对 这 个 临时 版 本 。 
。 如 果 读 操作 来 得 太 早 ， 那 么 它 要 等 待 前 面 的 事务 完成 。 如 果 较 早 的 事务 已 提交 ， 则 T, KERR 
作 将 针对 对 象 的 已 提交 版 本 。 如 果 较 早 的 事务 被 放弃 ， 那 么 工 将 重复 读 规 则 (选择 以 前 的 版 
本 ) 。 这 个 规则 可 防止 脏 数据 读 取 。 
e “到 达 太 晚 的 ” 读 操 作 将 被 放弃 ， 太 晚 是 指 具 有 后 来 时 间 惟 的 事务 已 经 写 了 相应 的 对 象 。 
图 16-31 说 明了 时 间 戳 排序 的 读 规 则 ， 图 中 共有 4 种 情况 ,分 别 标记 为 a ~ d， 它 们 均 用 于 说 明 事 
务 卫 的 读 操 作 动 作 。 在 每 种 情况 下 ， 服 务 器 选 出 一 个 写 时 间 戳 小 于 或 等 于 有 的 版 本 。 如 果 存 在 这 样 
的 版 本 ， 那 么 在 图 中 用 一 个 短线 做 标记 。 在 情况 a 和 b 中 ， 读 操作 针对 提交 版 本 一 一 在 a 中 ， 该 提交 
版 本 是 对 象 的 唯一 版 本 ; 而 在 b 中 ， 有 一 个 临时 版 本 属于 另 一 个 较 晚 的 事务 。 在 情况 。 中 ， 读 操作 针 
对 临时 版 本 ， 并 且 必 须 等 待 制作 该 临时 版 本 的 事务 提交 或 者 放弃 。 在 情况 4 中， 由 于 没有 合适 的 版 本 
用 于 读 操 作 ， 事 务 T, 被 放弃 。 
当 一 个 协调 者 收 到 提交 事务 的 请 求 后 ， 由 于 事务 的 所 有 操作 在 执行 之 前 都 进行 了 一 致 性 检查 ， 因 
此 它 总 能 提交 。 必 须 按照 时 间 蕉 顺序 创建 每 个 对 象 的 提交 版 本 。 因 此 ， 协 调 者 在 写 某 个 事务 所 访问 的 
对 象 的 提交 版 本 之 前 ， 可 能 需要 等 待 较 早 的 事务 结束 ， 不 过 客户 并 不 需要 等 待 。 为 了 保证 在 服务 器 裔 
溃 后 事务 是 可 恢复 的 ， 在 确认 客户 提交 事务 的 请 求 之 前 ， 必 须 将 对 象 的 临时 版 本 和 提交 信息 记录 到 持 
久 存储 中 。 
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需要 指出 的 是 ， 这 里 的 时 间 稚 排序 算法 是 严格 的 一 一 它 保证 了 事务 的 严格 执行 参见 16.2 节 ) 。 
时 间 戳 排序 的 读 规则 要 求 事务 对 对 象 的 读 操作 等 待 ， 直 到 所 有 写 该 对 象 的 较 早 事务 提交 或 者 放弃 为 止 。 
对 象 的 提交 版 本 也 按时 间 惟 顺序 排列 ， 以 保证 事务 对 对 象 的 写 操作 必须 等 待 ， 直 到 所 有 写 对 象 的 较 早 
事务 提交 或 者 放弃 为 止 。 























n BREMI 7, rn 读 操 作 执 行 
| 
wit 时 间 被 选中 hie 
a) 73 读 操作 b) TRE 
T, T, 读 操 作 等 待 T, 事务 被 放弃 
| 
被 选中 > 时间 > WN 
c) TARRE d) T kE 
图 例 : T T, 事务 7 产生 的 对 象 〈 写 时 间 稚 为 7) 
提交 版 本 ”临时 版 本 NSS 


图 16-31 SERRE ALI TR 


图 16-32 GREAT fmf A) FT RHE oP HES til PS) 16-7 HIE RITES TAU, HES AL BA 
C 分 别 表示 不 同 的 银行 账户 。 每 个 账户 有 一 项 RTS， 用 于 记录 最 大 的 读 时 间 截 ; 还 有 一 项 WIS， 用 于 
记录 每 个 版 本 的 写 时 间 惟 ， 其 中 提交 版 本 的 时 间 戳 用 粗 体 表示 。 最 初 ， 每 个 账户 拥有 由 事务 $ 写 人 的 
提交 版 本 ， 读 时 间 粹 集合 为 空 。 假 设 S< 了 < 7。 图 中 的 例子 表示 当 事 务 准备 获取 账户 B 的 余额 时 ， 
它 必须 等 待 事务 了 结束 ， 这 样 它 才 能 读 取 由 7 设置 的 值 (假设 了 提交 )。 











对 象 的 不 同 版 本 及 其 时 间 玲 
了 U A B C 
RTS WTS RTS WTS RTS WTS 
GB S {} S 0 S 
openTransaction 
bal=b. getBalance() {T} 
openTransaction 
b.setBalance(bal* 1.1) ST 
bal=b. getBalance() 
wait for T 
a.withdraw(bal/10) tee S, T 
commit oe T T 
bal=b. getBalance() {U} 
b.setBalance(bal*1.1) TU 
c.withdraw(bal/10) SU | 








16-32 $% TA U PRR ER 


这 里 介绍 的 时 间 稚 方法 能 够 避免 死 锁 ， 但 是 它 容 易 造 成 事务 重启 动 。 一 个 被 称 为 “忽略 过 时 写 ” 
规则 的 修改 方案 提供 了 一 种 改进 方法 。 它 对 时 间 蕉 排序 的 写 规则 做 了 如 下 一 些 改 动 
。 如 果 写 操作 来 得 太 晚 ， 那 么 直接 忽略 这 个 操作 ， 而 不 是 放弃 该 事务 ， 这 是 因为 即使 它 来 得 早 一 
些 时 ， 它 的 更 新 效果 也 会 被 覆盖 。 然 而 ， 如 果 其 他 事务 读 取 了 该 对 象 ， 那 么 这 个 写 操作 会 因为 
读 时 间 稚 而 失败 。 
多 版 本 时 间 戳 排序 ”本 节 将 介绍 如 何 通过 允许 每 个 事务 写 自 己 的 对 象 临时 版 本 来 提高 基本 时 间 稚 
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排序 的 并 发 度 。 在 由 Reed [1983] 引入 的 多 版 本 时 间 稚 排序 中 ， 每 个 对 象 除了 有 若干 临时 版 本 外 ， 还 
有 一 个 已 提交 版 本 列表 。 此 列表 记录 了 对 象 值 的 历史 。 利 用 多 版 本 的 好 处 在 于 ， 过 迟到 达 的 读 操 作 不 
会 被 拒绝 。 

对 象 的 每 个 版 本 除了 有 一 个 写 时间 截 外 ， 还 有 一 个 读 时 间 稚 ， 用 于 记录 读 该 版 本 的 事务 的 最 大 时 
间 惟 。 和 以 前 一 样 ， 每 当 一 个 写 操作 被 接受 后 ， 它 将 针对 与 事务 写 时 间 戳 相应 的 临时 版 本 进行 操作 。 
每 当 执行 读 操作 时 ， 它 将 针对 具有 小 于 该 事务 时 间 徐 的 最 大 写 时 间 稚 的 版 本 进行 操作 。 如 果 事 务 时 间 
锥 大 于 所 使 用 版 本 的 读 时 间 截 ， 那 么 该 版 本 的 读 时 间 稚 被 设置 成 该 事务 的 时 间 戳 。 

当 读 操作 太 迟 到 达 时 ， 人 允许 它 读 取 一 个 较 早 的 已 提交 版 本 ， 这 样 就 没 必 要 放弃 这 个 读 操 作 了 。 在 
多 版 本 时 间 规 排序 中 ， 读 操作 总 是 被 允许 的 ， 尽 管 它们 有 可 能 要 等 待 较 早 的 事务 结束 〈 或 提交 或 放 
F) 来 保证 事务 执行 是 可 恢复 的 。 练 习 16. 22 讨论 了 连锁 放弃 的 可 能 性 问题 。 它 用 于 处 理 时 间 惟 排序 
的 冲突 规则 3。 

不 同事 务 的 写 操作 之 间 不 存在 冲突 ， 因 为 每 个 事务 进行 写 操作 时 都 针对 所 访问 对 象 的 已 提交 版 本 。 
这 样 ， 就 不 需要 时 间 堆 排序 的 冲突 规则 2 了 ， 仅 留 下 下 面 的 规则 

规则 T, RHE EFT, 读 过 的 对 象 ， 其 中 了 >To 

如 果 对 象 的 某 个 版 本 的 读 时 间 戳 大 于 7.， 那 么 这 条 规则 就 被 破坏 了 ,但 只 有 在 该 版 本 有 一 个 小 于 
RFT T, 的 写 时 间 稚 时 才 会 这 样 。( 这 个 写 操作 不 能 影响 以 后 的 版 本 。) l 

多 版 本 时 间 改 排序 的 写 规则 : 由 于 每 个 可 能 冲突 的 读 操作 被 作用 于 对 象 最 近 的 一 个 版 本 上 ， 所 以 
服务 器 查看 具有 小 于 或 等 于 了. HRAS NY RRA RAL DmaxEariler。 以 下 规则 用 于 执行 事务 也 在 


对 象 D 上 执行 写 操作 的 请 求 : 
if (D maxEariter tikt <T.) 
在 D 的 临时 版 本 上 完成 写 操作 ， 并 标记 上 写 时 间 鹤 7。 
else 
放弃 事务 Te 
图 16-33 说 明了 一 个 写 操作 被 拒绝 的 例子 。 图 中 的 对 象 有 两 个 写 时 间 惟 为 T, 和 也 的 提交 版 本 。 该 
对 象 收 到 下 列 对 对 象 进行 操作 的 请 求 序列 : Tread; T,write; Tread; Twrite; 
T,read; T,write; Tsread; T,write; 
1) T; 请 求 一 个 读 操作 ， 它 在 T, 版 本 上 设置 读 \ 
TE] RR 7; . ， T, T; 
2) ?请 求 一 个 写 操作 ， 生 成 一 个 写 时 间 稚 为 7 T, T; 
的 新 临时 版 本 。 ye 
3) 7T, 请 求 一 个 读 操作 ， 它 访问 写 时 间 锥 为 T, T,<T,<T,<T,<T; 
的 版 本 (小 于 7 ARS SET TER) 。 
: 事务 7 产生 的 对 象 
4) 7, 请求 一 个 写 操作 ， 由 于 写 时 间 稚 为 的 OO ST ae 
BRRR T 大 于 7,， 该 写 操作 被 拒绝 。 (如 ie o 
提交 版 临时 版 本 
果 该 操作 不 被 拒绝 ,那么 新 版 本 的 写 时 间 戳 将 是 胞 。 


如 果 人 允许 这 个 版 本 ， 那 么 这 会 和 T, 的 读 操 作 相 冲突 ， 图 16-33 ”过 迟 的 写 操作 将 使 读 操 作 失 败 
T, 的 读 操 作 应 该 使 用 时 间 蕉 为 T, 的 版 本 。) 

当 一 个 事务 被 放弃 时 ， 它 创建 的 所 有 版 本 都 被 删除 。 当 事务 提交 时 ， 它 创建 的 所 有 版 本 都 被 保留 。 
但 是 为 了 控制 存储 空间 的 使 用 ， 必 须 定期 删除 旧版 本 。 尽 管 多 版 本 时 间 惟 排序 方法 会 带 来 存储 空间 的 
开销 ， 但 这 种 方法 既 可 以 使 并 发 度 有 极 大 提高 ， 又 不 会 造成 死 锁 ， 而 且 读 操作 总 能 进行 。 有 关 多 版 本 
时 间 徐 排序 的 进一步 讨论 ， 请 参见 Bernstein 等 的 文章 [1987]. 


16.7 并 发 控制 方法 的 比较 


我 们 已 经 描述 了 3 种 不 同 的 控制 并 发 访问 共享 数据 的 方法 : 严格 的 两 阶段 加 锁 、 乐 观 方法 和 时 间 
鹤 排 序 。 所 有 的 方法 都 会 带 来 时 间 和 空间 的 开销 ， 并 且 它 它们 都 在 一 定 程度 上 限制 了 并 发 操作 的 可 能 性 。 
时 间 稚 排序 方法 类 似 于 两 阶段 加 锁 ， 是 因为 它们 都 使 用 了 悲观 方法 ， 即 在 访问 每 个 对 象 时 都 检测 
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事务 之 间 是 否 会 产生 冲突 。 一 方面 ， 时 间 稚 排序 静态 地 决定 事务 之 间 的 串 行 顺 序 ， 即 在 事务 开始 时 就 
决定 它们 的 顺序 。 另 一 方面 ， 两 阶段 加 锁 动态 地 决定 事务 之 间 的 捉 行 顺序 ， 即 根据 对 象 被 访问 的 顺序 
确定 串 行 顺 岸 。 对 只 读 事 务 来 说 ， 时 间 惟 排序， 特别 是 多 版 本 时 间 惟 排序 ， 优 于 严格 的 两 阶段 加 锁 。 
如 果 事 务 的 绝 大 多 数 操作 是 更 新 操作 ， 那 么 两 阶段 加 锁 的 性 能 更 好 。 

一 些 研究 人 员 根据 时 间 戳 排序 对 以 读 操作 为 主 的 事务 有 益 、 而 加 锁 对 写 操 作 多 于 读 操作 的 事务 
有 益 这 个 现象 ， 提 出 一 种 混合 方案 ， 即 某 些 事务 利用 时 间 戳 排序 进行 并 发 控制 ， 而 另 一 些 事务 利用 
两 阶段 加 锁 方法 进行 并 发 控制 。 对 混合 方法 的 使 用 有 兴趣 的 读者 可 阅读 Bernstein 等 [1987] 的 
文献 。 

悲观 方法 在 检测 到 对 象 访问 冲突 时 有 不 同 的 解决 策略 。 时 间 戳 排序 将 立即 放弃 事务 ， 而 加 锁 机 制 
让 事务 等 待 ， 但 是 有 可 能 在 稍 后 为 避免 死 锁 而 放弃 该 事务 。 

在 使 用 乐观 并 发 控制 时 ， 所 有 的 事务 被 允许 执行 ， 但 是 其 中 的 一 些 事务 在 试图 提交 时 被 放弃 ;如 
果 采 用 向 前 验证 ， 那 么 会 在 更 早 的 时 候 放 弃 事 务 。 如 果 并 发 事务 之 间 的 冲突 较 少 时 ， 乐 观 并 发 控制 具 
有 较 好 的 性 能 ， 但 当 事 务 被 放弃 时 ， 乐 观 并 发 控制 需要 重复 非常 多 的 工作 。 

加 锁 在 数据 库 系统 中 已 被 使 用 多 年 ， 而 时 间 蕉 排序 也 已 应 用 于 SDD-1 数据 库 系 统 中 。 这 两 种 方法 
都 用 于 文件 服务 器 中 。 然 而 ， 在 分 布 式 系统 中 对 数据 访问 进行 并 发 控制 的 主流 方法 还 是 加 锁 ， 例 如 ， 
前 面 提 到 的 CORBA 的 并 发 控制 服务 就 完全 基于 锁 的 使 用 。 特 别 的 ， 它 提供 层次 加 锁 ， 这 种 方式 允许 对 
层次 化 结构 数据 进行 混合 粒度 的 加 锁 。 

一 些 研究 性 的 分 布 式 系统 ， 例 如 Argus [Liskov 1988] 和 Arjuna [Shrivastava et al. 1991 ] ， 研 究 了 
语义 锁 的 使 用 、 时 间 截 排序 和 针对 长 事务 的 新 方法 。 

Ellis 等 [1991] 撰写 了 满足 多 用 户 应 用 和 需求 方面 的 研究 综述 ， 在 这 种 多 用 户 应 用 中 ， 所 有 的 用 户 
都 希望 看 到 对 象 不 断 被 其 他 用 户 更 新 的 公共 版 本 。 其 中 不 少 方案 认为 应 该 让 做 出 改变 的 用 户 发 出 更 新 
通知 ， 但 这 与 隔离 的 思想 相悖 。 

Barghouti 和 Kaiser [1991] 撰写 了 所 谓 的 高 级 数据 库 应 用 方面 的 研究 综述 ， 诸 如 协同 CAD/CAM 
和 软件 开发 系统 。 在 这 些 应 用 中 ， 事 务 通常 持续 很 长 时 间 ， 用 户 针对 对 象 的 独立 版 本 进行 工作 ， 这 
些 对 象 版 本 从 一 个 公共 数据 库 中 取出 ， 在 工作 结束 时 再 放 回 。 对 象 版 本 之 间 的 合并 需要 用 户 之 间 的 
协同 。 

同样 ， 对 于 那些 允许 用 户 在 互联 网 上 共享 文档 的 应 用 来 说 ， 上 述 的 并 发 控制 机 制 也 并 不 充分 。 很 
多 后 来 使 用 的 乐观 并 发 控制 形式 遵循 的 是 冲突 解决 原则 ， 而 不 是 将 冲突 操作 对 的 其 中 一 个 取消 。 

以 下 是 部 分 示例 。 

Dropbox Dropbox [ www. dropbox. com] 是 一 个 云 服 务 ， 它 提供 文件 备份 功能 ,允许 用 户 共享 文件 
和 文件 夹 ， 并 从 任何 地 方 访问 它们 。Dropbox 使 用 乐观 的 并 发 控制 形式 ， 跟 踪 不 一 致 并 预防 用 户 更 新 所 
导致 的 崩溃 ， 这 些 更 新 是 以 整个 文件 为 粒度 的 。 因 此 ， 如 果 两 个 用 户 对 同一 个 文件 做 了 并 发 更 新 ， 那 
个 第 一 个 更 新 将 被 接受 ， 而 第 二 个 更 新 会 被 拒绝 。 然 而 ，Dropbox 会 提供 文件 或 文件 夹 的 历史 版 本 以 便 . 
用 户 能 够 手动 地 合并 他 们 的 更 新 ， 或 恢复 其 历史 版 本 。 

Google apps Google Apps [ www. google. com] ( 见 图 21-2) ， 其 中 包含 Google Docs, Google Docs 是 
一 个 提供 一 些 基于 Web 应 用 的 云 服 务 ， 如 文字 处 理 、 电 子 表格 和 报告 等 ， 它 允许 用 户 通过 共享 文档 的 
方法 进行 协作 。 如 果 一 些 用 户 同 时 编辑 了 同一 个 文档 ， 他 们 将 相互 看 到 对 方 的 更 改 。 在 共同 使 用 文字 
处 理 器 处 理 一 个 文档 时 ， 用 户 可 以 相互 看 到 对 方 的 光标 ， 任 何 参 与 者 输入 的 更 新 将 会 一 个 字符 一 个 字 
符 地 显示 出 来 。 用 户 要 做 的 是 解决 当中 出 现 的 冲突 ,但 由 于 用 户 可 以 感觉 到 其 他 人 的 活动 ， 这 种 冲突 
通常 也 是 可 以 避免 的 。 在 使 用 电子 表格 的 情况 下 ， 用 户 的 光标 和 更 改 是 以 一 个 单元 格 为 粒度 进行 显示 
和 更 新 的 。 如 果 两 个 用 户 同 时 访问 同一 个 单元 格 ， 那么 最 后 的 更 新 才 是 有 效 的 。 

Wikipedia 它 在 编辑 时 使 用 的 是 乐观 并 发 控制 。 并 允许 编辑 人 员 并 发 地 访问 那些 第 一 次 写 人 已 经 
被 接受 的 页 面 ， 或 者 在 某 个 用 户 提交 之 后 显示 “编辑 冲突 ”并 要 求 该 用 户 解决 冲突 的 页 面 。 

Dynamo Amazon. com 的 键 值 存储 服务 使 用 带 有 冲突 解决 的 乐观 并 发 控制 方法 。 如 下 框 中 所 示 : 
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Dynamo 

Dynamo [ DeCandia et. al 2007] 是 Amazon. com 使 用 的 一 种 存储 服务 ， 其 平台 利用 上 万 台 服 务 
器 在 高 峰 时 段 能 为 几 千 万 用 户 提供 服务 。 这 种 环境 对 性 能 、 可 靠 性 和 可 扩展 性 提出 了 极 高 的 要 求 。 
Dynamo 被 设计 用 来 支持 购物 车 和 最 佳 销售 商 列 表 这 样 的 应 用 ， 这 种 应 用 只 需 利用 主键 来 访问 数据 
存储 中 的 值 。 该 服务 的 关键 是 利用 祝 图 来 大 量 复制 数据 ， 以 提供 可 伸缩 性 和 可 用 性 。 

Dynamo 使 用 get 和 put 操作 而 不 是 事务 ， 也 不 保证 ACID 属性 中 所 指定 的 隔离 性 。 为 了 保证 系 
统 的 可 用 性 ， 它 为 其 支持 的 应 用 程序 提供 了 弱 一 致 性 。 

Dynamo 在 并 发 控制 中 使 用 乐观 的 方法 。 只 要 版 本 不 同 就 调和 它们 。 在 购物 车 应 用 程序 中 使 用 
应 用 逻辑 来 合并 版 本 。 

在 应 用 人 逻辑 不 能 用 的 地 方 ， 就 采用 基于 时 间 蕉 的 调和 方法 。Dynamo 使 用 “最 后 写 有 效 ” 的 规 
则 ， 即 将 具有 最 新 时 间 锥 的 版 本 当成 最 新 的 版 本 。 














16.8 she 


面 对 事 务 的 并 发 执行 和 服务 器 崩溃 ， 事 务 提供 了 一 种 由 客户 指定 原子 操作 序列 的 手段 。 实 现 原 子 
性 第 一 个 方面 的 含义 是 通过 运行 事务 使 得 它们 的 执行 效果 是 串 行 等 价 的 。 已 提交 事务 的 效果 被 记录 在 
持久 性 存储 中 ， 以 便 事 务 服务 能 从 进程 崩 省 中 恢复 。 为 了 在 事务 放弃 后 消除 所 有 的 效果 ， 事 务 的 执行 
必须 是 严格 的 。 也 就 是 说 ， 某 个 事务 的 读 写 操作 必须 推迟 到 另 一 个 写 同一 对 象 的 事务 提交 或 放弃 之 后 。 
为 了 保证 事务 可 自行 选择 是 提交 还 是 放弃 ， 事务 中 的 操作 是 针对 其 他 事务 不 可 访问 的 临时 版 本 。 当 事 
务 提交 时 ， 对 象 的 临时 版 本 被 拷贝 到 实际 对 象 以 及 持久 性 存储 中 。 

笑 套 事务 由 若干 子 事务 组 合 形成 。 在 分 布 式 系统 中 ， 航 套 事务 是 非常 有 用 的 ， 因 为 它 允 许 在 不 同 
服务 器 上 并 发 执行 子 事 务 。 符 套 事务 还 有 一 个 好 处 是 允许 独立 恢复 部 分 事务 。 

操作 冲突 是 形成 各 种 并 发 控制 协议 的 基础 。 并 发 控制 协议 不 仅 要 确保 串 行 性 ， 并 且 要 用 严格 执行 
来 保证 恢复 处 理 ， 以 避免 与 事务 放弃 (例如 连锁 放弃 ) 有 关 的 问题 。 

在 调度 事务 的 某 个 操作 时 有 3 种 策略 : 《1) 立即 执行 ，(2) 推迟 执行 ，(3) 放弃 事务 。 

严格 的 两 阶段 加 锁 使 用 了 前 两 种 策略 ， 只 有 在 死 锁 时 才 应 用 放弃 事务 。 它 根据 事务 访问 公共 对 象 
的 时 间 对 事务 进行 排序 来 保证 事务 的 串 行 化 。 它 的 主要 缺点 是 会 造成 死 锁 。 

时 间 蕉 排序 利用 了 上 述 3 种 策略 ， 它 根据 事务 开始 的 时 间 来 排列 事务 对 对 象 的 访问 顺序 。 这 种 广 
法 不 会 引起 死 锁 ， 并 且 对 只 读 事 务 很 有 利 。 但 是 ， 到 来 较 晚 的 事务 必须 被 放弃 。 多 版 本 时 间 稚 排序 是 
一 种 特别 有 效 的 方法 。 

乐观 并 发 控制 在 事务 的 执行 过 程 中 不 进行 任何 形式 的 检测 ， 直 到 事务 完成 为 止 。 事 务 在 提交 之 前 
必须 通过 验证 。 向 后 验证 需要 维护 已 提交 事务 的 多 个 写 集合 ， 而 向 前 验证 必须 验证 活动 事务 ， 它 的 好 
处 是 允许 使 用 多 种 策略 解决 冲突 。 在 乐观 并 发 控制 甚至 在 时 间 戳 排序 中 ， 由 于 不 能 通过 验证 的 事务 不 
断 地 放弃 ， 从 而 引起 饥饿 。 


练习 


16. 1 TaskBag 是 一 个 提供 “任务 描述 ”仓库 的 服务 。 它 支持 在 几 台 计算 机 上 运行 的 客户 并 行 执 行 部 分 计 
算 。 一 个 主 (master) 进程 在 TaskBag 中 放置 一 个 计算 的 子 任务 描述 ， 工 作者 (worker) 进程 从 
TaskBag 中 选择 任务 并 实现 它们 ， 然 后 将 结果 的 描述 返回 给 TaskBag。 主 (master) 进程 收集 结果 并 
将 它们 组 合 起 来 ， 产 生 最 后 的 结果 。 

TaskBag 服务 提供 下 列 操作 : 

è. setTask: 人 允许 客户 向 TaskBag 中 增加 任务 描述 。 

e takeTask: 人 允许 客户 从 TaskBag 中 取出 任务 描述 。 

当 一 个 任务 当前 不 可 用 , 但 可 能 不 久 就 可 用 的 时 候 ， 客 户 发 出 takeTask 请 求 。 讨 论 下 列 方法 的 优 
缺点 : 
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16. 2 


16.5 


16. 6 


16.7 


16.8 


16.9 
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1) 服务 器 马上 回答 ， 告 诉 客户 以 后 重 试 。 

2) 让 服务 器 操作 (和 客户 ) 等 待 ， 直 到 任务 变 成 可 用 为 止 。 

3) 使 用 回调 。 (第 678 页 ) 
一 个 服务 器 管理 对 象 a ，a, ，… ，a, ， 它 为 客户 提供 下 面 两 种 操作 : 

e Read(i); 返回 对 象 a, 的 值 。 

© Write(i, Value): 将 对 象 a; 的 值 设置 为 Value。 

FA TA UELUT: 

T: x=read(j); y=read(i); write(j, 44); write(i, 33); 

U: x=vread(k); write(i, 55); y=read(j); write(k, 66). 


请 给 出 事务 了 7 和 忆 的 3 个 串 行 化 等 价 的 交错 执行 。 (第 685 页 ) 
针对 练习 16.2 的 事务 了 和 忌 的 串 行 化 等 价 交错 执行 ， 给 出 满足 下 面 特性 的 执行 : 1) 严格 执行 ; 
2) 虽然 不 是 严格 执行 ， 但 是 不 会 造成 连锁 放弃 ; 3) 会 引起 连锁 放弃 。 (第 689 页 ) 


操作 create 在 银行 分 行 中 插入 一 个 新 的 银行 账户 。 事 务 TMU Bae MF: 

T: aBranch.create("Z"); 

U: z.deposit(10); z.deposit(20); 

假设 账户 Z 不 存在 ， 并 假设 deposit 操作 在 账户 不 存在 时 不 做 任何 操作 。 考 虑 下 面 的 事务 TA U 的 交 
错 执行 : 








T U 
aBranch. create( Z) ; z. deposit(10) ; 
z. deposit(20) ; 


按 这 个 执行 顺序 ， 请 给 出 账户 Z 在 执行 后 的 余额 。 这 种 执行 是 否 与 了 和 忌 的 串 行 等 价 执行 一 致 ? 


(第 685 页 ) 
练习 16. 4 中 新 创建 的 账户 2 有 时 被 称 为 假象 《phantom) 。 在 事务 乙 看 来 ， 账 户 2 一 开始 不 存在 ， 然 
后 就 像 幻 影 一 样 出 现 。 请 用 一 个 例子 来 说 明 删 除 账户 时 也 会 出 现 假象 。 (第 685 页 ) 


“转账 ”事务 7 了 各 分 别 定义 如 下 ; 

T: a.withdraw(4); b.deposit(4); 

U; e.withdraw(3); b.deposit(3); 

假设 它们 组 织 成 一 对 嵌 套 事务 ; 

T,: a.withdraw(4); T,: b.deposit(4); 

U,; ¢.withdraw(3); U,; b.deposit(3); 

WERT, T U MU, 之 间 的 串 行 等 价 交错 执行 的 数目 和 了 和 的 串 行 等 价 交错 执行 的 数目 。 试 
解释 为 什么 所 套 事 务 比 非 所 套 事务 串 行 等 价 交错 执行 的 数目 更 多 ? (第 685 页 ) 
考虑 练习 16. 6 中 媒 套 事务 的 恢复 问题 。 假 设 withdraw 事务 在 账户 透支 时 将 放弃 ， 因 而 父 事务 也 被 放 
FF. BALE PRIA Ti Ta U AU, 的 串 行 等 价 执行 : 1) 这 是 一 个 严格 执行 ; 2) 非 严 格 
执行 。 考 虑 严格 的 执行 在 多 大 程度 上 减少 岩 套 事务 的 并 发 度 ? (第 685 页 ) 
请 解释 为 什么 串 行 等 价 性 要 求 一 旦 事务 释放 了 对 象 二 的 某 个 锁 ， 它 就 不 允许 再 获得 其 他 锁 ? 

一 个 服务 器 管理 对 象 a ，a, ，…，a,。 该 服务 器 为 客户 提供 两 种 操作 : 

© Read(i) : 返回 对 象 ci 的 值 。 

© Write(i, Value): 将 对 象 a; 的 值 设 置 为 Value。 

事务 了 和 也 定义 如 下 : 

T: x=read(i); write(j, 44); 

U: write(i, 55); write(j, 66); 

请 给 出 一 个 事务 TAU PCT, CER ATT Pe F BA TT AR TS OF 
的 。 (第 693 页 ) 
练习 16. 8 中 的 事务 了 和 如 在 服务 器 上 分 别 定义 如 下 : 


16. 10 


16. 11 


16. 12 


16. 13 


16. 14 


16. 15 


16. 16 
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T: x=read(i); write(j, 44); 
U: write(i, 55); write(j, 66); 
WH a 和 a 的 初 值 分 别 是 10 A120, FARAT EERTE? 哪些 可 能 出 现在 两 阶段 加 锁 中 ? 


T U 
x=read{i); 


T 

x=read(i); 
write(i,55); write(j,44); 
write(j,44); write(i,55); 


write(j,66); write(j,66); 


U 
write(i, 55); 
write(j,66),; 


write(i,55); 


x=read(ij; 
x=read(i); 
write(j,44); 


write(j,66); 
write (7,44); 





c) 


(第 693 页 ) 
考虑 将 两 阶段 锁 的 限制 适当 放宽 ， 只 读 事 务 可 以 较 早 地 释放 读 锁 。 那 么 一 个 只 读 事务 是 否 能 达到 一 
致 检索 ? 对 象 是 否 会 变 得 不 一 致 ? 请 用 练习 16. 8 中 的 事务 T 和 0 来 说 明 你 的 结论 : 
T: x=read(i); y=read( j); 
U: write(i, 55); write(j, 66); 


其 中 对 象 a; Ala, 的 初 值 分 别 是 10 和 20。 《第 690 页 ) T23 
事务 的 严格 执行 要 求 某 个 事务 的 读 写 操作 必须 推迟 到 写 这 个 对 象 的 所 有 其 他 事务 提交 或 放弃 之 后 才 
能 进行 。 请 解释 图 16-16 中 的 加 锁 规则 是 如 何 保 证 严格 执行 的 。 (第 696 页 ) 
如 果 事 务 完成 所 有 操作 后 但 在 提交 前 就 释放 写 锁 ， 请 描述 此 时 如 何 引起 不 可 恢复 的 状态 。 
(第 690 页 ) 
如 果 事 务 完成 所 有 操作 后 但 在 提交 前 就 释放 读 锁 ， 请 解释 为 什么 此 时 事务 的 执行 仍 是 严格 的 。 根 据 
这 一 点 来 改进 图 16-16 中 规则 2, (第 690 页 ) 


考虑 单个 服务 器 上 的 死 锁 检测 机 制 ， 精 确 地 描述 何 时 将 边 加 入 等 待 图 ， 何 时 从 等 待 图 中 删除 边 。 
利用 练习 16.8 中 的 服务 器 上 运行 的 事务 Tr、U 和 V 来 说 明 你 的 答案 : 


T U V 
Write( i, 66) 
Write(i, 55) 

write(i, 77) 


commit 


435 7 释放 它 在 c: 上 的 写 锁 时 ，7 和 了 都 在 等 待 获取 这 个 写 锁 。 如 果 了 (首先 到 达 ) 在 了 之 前 获 

得 锁 ， 你 的 方案 能 否 正确 工作 ? 如 果 不 能 ， 请 修改 你 的 描述 。 (33 702 页 ) 

考虑 图 16-26 中 的 层次 锁 。 如 果 某 次 会 见 被 安排 在 ww 周 的 d 天 的 时 刻 上 ， 那 么 需要 设置 哪些 锁 ? 应 

该 按照 什么 次 序 设 置 这 些 锁 ? 释放 这 些 锁 也 按照 上 述 次 序 吗 ? 

当 查 看 v 周 的 每 天 的 时 间 段 时 需要 设置 娜 些 锁 ? 在 已 为 某 个 约会 设置 了 锁 的 时 候 ， 能 这 样 做 吗 ? 
(第 705 页 ) 

考虑 将 乐观 并 发 控制 应 用 于 练习 16.9 中 的 事务 了 和 也 的 情况 。 如 果 了 和 也 同 时 处 于 活动 状态 ， 试 

描述 以 下 几 种 情况 的 结果 

1) 服务 器 首先 处 理 了 的 提交 请 求 ， 使 用 向 后 验证 方式 。 

2) 服务 器 首先 处 理 U 的 提交 请 求 ， 使 用 向 后 验证 方式 。 

3) 服务 器 首先 处 理 了 的 提交 请 求 ， 使 用 向 前 验证 方式 。 
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4) 服务 器 首先 处 理 U 的 提交 请 求 ， 使 用 向 前 验证 方式 。 
对 于 上 面 的 每 种 情况 ， 描 述 事务 了 7 和 7 的 操作 顺序 ， 注 意 写 操 作 在 验证 通过 之 后 才 真 正 起 作用 。 
724 〈 第 707 页 ) 
16.17 ”考虑 事务 了 和 了 1 的 交错 执行 ， 





了 U 
OpenTransaction OpenTransaction 
y =read(k); 
write(i, 55); 
write(j, 66) ; 
commit 

x =read(i); 

write(j, 44) ; 


在 使 用 具有 向 后 验证 的 乐观 并 发 控制 时 ， 由 于 事务 7 的 针对 o 的 读 操 作 与 事务 U 的 写 操作 冲突 ， 
事务 了 将 被 放弃 ， 尽 管 这 个 执行 是 串 行 等 价 的 。 请 改进 算法 来 处 理 这 种 情况 。 


(第 707 页 ) 
16.18 BERAY 16.8 中 事务 TT 和 0 分 别 在 两 阶段 加 锁 (练习 16.9) 和 乐观 并 发 控制 (练习 16.16) 中 
的 操作 执行 顺序 。 (第 707 页 ) 


16.19 考虑 将 时 间 稚 排 序 用 于 练习 16. 9 中 事务 了 7 和 也 的 各 种 交错 执行 情况 。 对 象 wm 和 a 的 初 值 分 别 是 10 
和 20， 初 始 的 读 写 时 间 截 都 是 志 。 假 设 每 个 事务 在 开始 第 一 个 操作 之 前 就 获得 时 间 蕉 例如 在 情况 
ath, ?和 已 获 得 的 时 间 稚 分 别 是 二 Alt, FH <h < 志 。 请 根据 时 间 顺 序 描述 了 和 的 各 个 操作 
的 效果 。 对 于 每 个 操作 需 描述 : 

1) 根据 读 规则 或 写 规则 ， 这 个 操作 是 否 允 许 执行 。 

2) 赋 给 事务 或 者 对 象 的 时 间 戳 。 

3) 临时 对 象 的 创建 和 它们 的 值 。 

对 象 的 最 终 值 和 时 间 戳 分 别 是 什么 ? (第 711 页 ) 

16.20 ”对 于 下 面 的 事务 7 和 0 的 交错 执行 ,重新 考虑 练习 16. 19 中 的 问题 。 


= OS 
T U 



















T U 
openTransaction openTransaction 
` gpenTransaction openTransaction 

write(i,55); write (i,55); 

write(j,66); write (j,66); 
x=read(i); commit 
write(j,44); x=read(i); 

commit write(j,44); 

725 (第 711 页 ) 
16.21 利用 多 版 本 时 间 戳 排序， 重新 考虑 练习 16. 20。 (第 715 页 ) 
16.22 ”在 多 版 本 时 间 蕉 排序 中 ， 读 操作 可 以 访问 对 象 的 临时 版 本 。 请 举例 说 明 ， 如 果 所 有 的 读 操 作 都 允许 

立即 执行 ， 则 有 可 能 造成 连锁 放弃 。 (第 715 页 ) 


726| 16.23 与 普通 的 时 间 惟 排 序 相 比 ， 多 版 本 时 间 蕉 排序 有 哪些 优点 和 缺点 ? (第 715 页 ) 


| 第 17 章 


Distributed Systems; Concepts and Design, Fifth Edition 


分 布 式 事务 


本 章 介绍 分 布 式 事务 ， 即 涉及 多 个 服务 器 的 事务 。 分 布 式 事务 可 以 是 平面 事务 , 也 可 以 是 笛 套 
事务 。 

原子 提交 协议 是 参与 分 布 式 事务 的 服务 器 所 使 用 的 一 个 协作 过 程 ， 它 使 多 个 服务 器 能 够 共同 决策 
是 提交 事务 还 是 放弃 事务 。 本 章 将 描述 两 阶段 提交 协议 ， 它 是 最 常用 的 原子 提交 协议 。 

分 布 式 事务 的 并 发 控制 一 节 将 讨论 为 支持 分 布 式 事务 如 何 扩展 加 锁 、 时 间 匾 排序 和 乐观 并 发 控制 。 

使 用 加 锁 机 制 可 能 会 造成 分 布 式 死 锁 ，17. 5 节 将 讨论 分 布 式 死 锁 的 检测 算法 。 

每 个 提供 事务 的 服务 器 都 包含 一 个 恢复 管理 器 ， 它 的 作用 是 在 出 现 故障 之 后 服务 器 被 蔡 代 时 ， 用 
它 来 恢复 服务 器 所 管理 的 对 象 上 的 事务 的 效果 。 人 恢复 管理 器 将 对 象 、 音 图 列表 和 每 个 事务 的 状态 信息 
记录 在 持久 性 存储 中 。 


17.1 简介 


第 16 章 讨论 了 只 访问 一 个 服务 器 中 对 象 的 平面 事务 和 舱 套 事务 。 通 常情 况 下 ， 不 管 是 平面 事务 还 
是 嵌 套 事务 ， 它 们 都 需要 访问 不 同 计算 机 上 的 对 象 。 访 问 由 多 个 服务 器 管理 的 对 象 的 平面 事务 或 岂 套 
事务 称 为 分 布 式 事务 (distributed transaction) 。 

当 一 个 分 布 式 事务 结束 时 ， 事 务 的 原子 特性 要 求 所 有 参与 该 事务 的 服务 器 必须 全 部 提交 或 全 部 放 
弃 该 事务 。 为 了 实现 这 一 点 ， 其 中 一 个 服务 髓 承担 了 协调 者 (coordinater) 的 角色 ， 由 它 来 保证 在 所 有 
的 服务 器 上 获得 同样 的 结果 。 协 调 者 的 工作 方式 取决 于 它 选 用 的 协议 。“ 两 阶段 提交 协议 ”是 最 常用 
的 协议 。 该 协议 允许 服务 器 之 间 的 相互 通信 ， 以 便 就 提交 或 放弃 共同 做 出 决定 。 

分 布 式 事务 的 并 发 控制 基于 第 16 章 中 讨论 的 方法 。 每 个 服务 器 对 自己 的 对 象 应 用 本 地 的 并 发 控 
制 ， 以 保证 事务 在 本 地 是 串 行 化 的 。 分 布 式 事务 还 需要 保证 全 局 串 行 化 ， 如 何 实现 这 一 点 与 是 否 使 用 
加 锁 、 时 间 和 截 排序 或 乐观 并 发 控制 有 关 。 在 某 些 情况 下 ， 事 务 在 单个 服务 器 上 是 串 行 化 的 ， 但 同时 ， 
由 于 不 同 服务 器 之 间 存 在 相互 依赖 循环 ， 因 此 可 能 出 现 分 布 式 死 锁 。 

事务 恢复 用 于 保证 事务 所 涉及 的 所 有 对 每 都 是 可 恢复 的 。 除 此 之 外 ， 它 还 保证 对 象 只 反映 已 提交 
事务 所 做 的 更 新 ， 不 反映 被 放弃 事务 所 做 的 更 新 。 


17.2 平面 分 布 式 事务 和 做 套 分 布 式 事务 


如 果 客 户 事务 调用 了 不 同 服务 器 上 的 操作 ， 那 么 它 就 成 为 一 个 分 布 式 事 务 。 有 两 种 构造 分 布 式 事 
务 的 方式 ; 按 平 面 事务 构造 和 按 髓 套 事务 构造 。 

在 平面 事务 中 ， 客 户 给 多 个 服务 器 发 送 请 求 。 例 如 ， 在 图 17- 1a H, #4 了 是 一 个 平面 事务 ， 它 
调用 了 服务 器 X、Y 和 2 上 的 对 象 操作 。 一 个 平面 客户 事务 完成 一 个 请 求 之 后 才 发 起 下 一 个 请 求 。 因 
此 ， 每 个 事务 顺序 访问 服务 器 上 的 对 象 。 当 服务 器 使 用 加 锁 机 制 时 ， 事 务 一 次 只 能 等 待 一 个 对 象 。 

在 幅 套 事务 中 ， 顶 层 事务 可 以 创建 子 事务 ， 子 事务 可 以 进一步 地 以 任意 深度 腾 套 子 事务 。 图 17-1b 
给 出 了 一 个 客户 事务 7， 它 创建 了 两 个 子 事务 T 和 罗 ， 它 们 分 别 访问 服务 器 下 和 了 上 的 对 象 。 子 事务 
T, AUT, 又 创建 子 事务 Ti,、Ti,、Tw 和 7T,。， 这 4 个子 事务 分 别 访问 服务 器 性 、N 和 己 上 的 对 象 。 在 其 套 
事务 中 ,同一 层次 的 子 事务 可 并 发 执行 ， 所 以 T, AT, 是 并 发 执行 的 ， 又 由 于 它们 访问 不 同 服务 器 上 
KHR, MEETER. M, Tas Tos TaM 2 也 可 以 并 发 执行 。 

现在 考虑 这 样 一 个 分 布 式 事务 ; 客户 从 4 账户 转账 $10 到 C 账户 ,然后 从 B 账 户 转 账 $20 Bl D Rk 
Po 账户 4 和 B 分 别 在 服务 器 了 和 Y 上 ， 而 账户 C 和 在 服务 器 Z 上 。 如 果 将 该 事务 组 织 成 4 个 典 套 
事务 (如 图 17-2 所 示 ) ,那么 4 个 请 求 ( 两 个 deposit 操作 和 两 个 withdraw 操作 ) 可 以 并 行 运行 ， 从 而 
整体 执行 性 能 优 于 4 个 操作 被 顺序 调用 的 简单 事务 。 
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a) 平面 事务 b) KREBS 
图 17-1 分 布 式 事务 


a.withdraw(10) 


T = openTransaction 
openSubTransaction 
a.withdraw(10); 
openSubTransaction 
b.withdraw(20); 
openSubTransaction 
c.deposit(10); 
openSubTransaction 
d.deposit(20); 
closeTransaction 


b.withdraw(20) 


c.deposit(10) 


d.deposit(20) 





图 17-2 REKREA ` 


分 布 式 事务 的 协调 者 


执行 分 布 式 事务 请 求 的 服务 器 需要 相互 通信 ， 以 确保 在 事务 提交 时 能 够 协调 它们 之 间 的 动作 。 客 
户 在 启动 一 个 事务 时 ， 向 任意 一 台 服务 器 上 的 协调 者 发 出 一 个 openTransaction 请 求 ， 参 见 16. 2 节 的 描 
述 。 该 协调 者 处 理 完 openTransaction 请 求 后 ， 将 事务 标识 符 (TID) 返回 给 客户 。 分 布 式 事务 的 事务 标 
识 符 在 整个 分 布 式 系统 中 必须 是 唯一 的 。 构 造 TID 的 一 种 简单 方法 是 将 TID 分 成 两 部 分 : 创建 该 事务 
的 服务 器 的 标识 符 〈 例 如 IP Ht) 和 一 个 对 该 服务 器 来 说 是 唯一 的 数字 。 

创建 某 一 分 布 式 事务 的 协调 者 成 为 该 分 布 式 事务 的 协调 者 ， 它 在 分 布 式 事务 结束 时 负责 提交 或 放 
弃 事务 。 管 理 分 布 式 事务 访问 的 对 象 的 每 个 服务 器 都 是 该 事务 的 参与 者 (participant) ， 每 个 服务 器 提 
供 一 个 我 们 称 为 参与 者 的 对 象 。 每 个 事务 参与 者 负责 跟踪 所 有 参与 分 布 式 事务 的 可 恢复 对 象 。 这 些 参 
与 者 配合 协调 者 共同 执行 提交 协议 。 

在 事务 的 执行 过 程 中 ， 协 调 者 在 列表 中 记录 所 有 对 参与 者 的 引用 ， 每 一 个 参与 者 也 记录 一 个 对 协 
调 者 的 引用 。 

图 13-3 给 出 的 Coordinator 接口 提供 了 一 个 额外 的 方法 join， 它 用 于 将 一 个 新 的 参与 者 加 入 当前 
事务 : 
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join (Trans, reference to participant) 
通知 协调 者 一 个 新 的 参与 者 已 加 入 到 事务 Trans 

协调 者 将 新 的 参与 者 记录 到 参与 者 列表 中 。 事 实 上 ， 协调 者 知道 所 有 的 参与 者 ， 而 每 个 参与 者 也 D 
知道 协调 者 ， 这 样 在 事务 提交 时 ， 协 调 者 和 参与 者 都 能 收集 到 必要 的 信息 。 

图 17-3 显示 了 一 个 客户 ， 它 的 (平面 ) 银行 事务 涉及 服务 器 BranchX, BranchY 和 BranchZ 上 的 账 
户 4、B、C 和 万。 该 客户 事务 了 从 账户 4 转账 $4 到 账户 C， 然 后 从 账户 B 转账 $3 到 账户 D。 将 图 中 
左边 的 事务 了 展开 ， 我 们 可 以 看 到 事务 T 的 openTransaction 和 closeTransaction 操作 被 发 送 给 协调 者 ， 协 
调 者 可 以 位 于 任何 一 个 参与 事务 的 服务 器 上 。 每 个 服务 器 上 都 有 一 个 参与 者 ， 它 们 通过 调用 协调 者 的 
join 方法 加 入 该 事务 。 当 客户 调用 事务 中 的 一 个 方法 时 ， 例 如 b. withdraw (7T，3) ， 接 收 该 调用 的 对 象 
(服务 器 BranchY 的 BHR) 将 通知 参与 者 对 象 自己 属于 事务 T。 如 果 在 这 之 前 没有 通知 过 协调 者 ， 则 
参与 者 对 象 调用 join 操作 来 通知 协调 者 。 在 这 个 例子 中 ， 我 们 看 到 事务 标识 符 作 为 一 个 额外 的 参数 传 
递 ， 这 样 ， 接 收 者 能 将 它 传递 给 协调 者 。 在 客户 调用 closeTransaction 时 ， 协 调 者 就 拥有 了 对 所 有 参与 
者 的 引用 。 
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协调 者 
C) 







openTransaction 


closeTransaction A 一 a.withdraw(4); 


BranchX 


b.withdraw(T, 3); 

B 一 b.withdraw(3); 

T = openTransaction 
a.withdraw(4); 
c.deposit(4); 
b.withdraw(3); 参与 者 
d.deposit(3); 

closeTransaction 


BranchY 


c 9 c.deposit(4); 
D 一 d.deposit(3); 
注 ; 协调 者 在 其 中 的 菜 一 个 服务 器 上 ， 例 如 BranchX 上 。 ee 


图 17-3 一 个 分 布 式 银行 事务 


值得 注意 的 是 ， 任 何 一 个 参与 者 可 能 由 于 某 些 原因 无 法 继续 事务 而 调用 协调 者 的 abortTransaction 
方法 。 


17.3 原子 提交 协议 


事务 的 提交 协议 最 初 于 20 世纪 70 年 代 提 出 ， 而 两 阶段 提交 协议 是 由 Gray [1978] 提出 的 。 事 务 
的 原子 性 要 求 分 布 式 事务 结束 时 ， 它 的 所 有 操作 要 么 全 部 执行 ， 要么 全 部 不 执行 。 就 分 布 式 事务 而 言 ， 
客户 请 求 多 个 服务 器 上 的 操作 。 在 客户 请 求 提交 或 放弃 事务 时 ， 事 务 结束 。 以 原子 方式 完成 事务 的 一 
个 简单 方法 是 让 协调 者 不 断 地 向 所 有 参与 者 发 送 提交 或 放弃 请 求 ， 直 到 所 有 参与 者 确认 已 执行 完 相应 
操作 。 这 是 一 个 单 阶段 原子 提交 协议 (one-phase atomic commit protocol) 的 例子 。 

但 是 ， 这 种 简单 的 单 阶 段 原子 提交 协议 是 不 够 用 的 ， 在 客户 请 求 提 交 时 ， 该 协议 不 允许 任何 服务 
器 单方 面 放 弃 事 务 。 阻 止 服务 器 提交 它 那 部 分 事务 的 原因 通常 与 并 发 控制 问题 有 关 。 例 如 ， 如 果 使 用 
加 锁 ， 为 了 解除 死 锁 需 要 将 事务 放弃 ， 客 户 有 可 能 在 发 起 新 的 请 求 之 前 并 不 知道 事务 已 被 放弃 。 如 果 
使 用 乐观 并 发 控制 ， 某 个 服务 器 的 验证 失败 将 导致 放弃 事务 。 在 分 布 式 事务 的 进行 过 程 中 ， 协 调 者 可 
能 不 知道 某 个 服务 器 已 经 骨 溃 并 且 已 被 替换 一 一 而 这 个 服务 器 也 需要 放弃 事务 。 731 

两 阶段 提交 协议 (two-phase commit protocol) 的 设计 出 发 点 是 允许 任何 一 个 参与 者 自行 放弃 它 自己 
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的 那 部 分 事务 。 由 于 事务 原子 性 的 要 求 ， 如 果 部 分 事务 被 放弃 ， 那 么 整个 分 布 式 事务 也 必须 被 放弃 。 
在 该 协议 的 第 一 个 阶段 ， 每 个 参与 者 投票 表决 事务 是 放弃 还 是 提交 。 一 旦 参与 者 投票 楼 求 提 交 事 务 ， 
那么 就 不 允许 放弃 事务 。 因 此 ， 在 一 个 参与 者 投票 要 求 提交 事务 之 前 ， 它 必须 保证 最 终 能 够 执行 提交 
协议 中 它 自 己 那 一 部 分 ， 即 使 参与 者 出 现 故 障 而 被 中 途 替 换 掉 。 一 个 事务 的 参与 者 如 果 最 终 能 提交 事 
务 ， 那 么 可 以 说 参与 者 处 于 事务 的 准备 好 (prepared) 状态 。 为 了 保证 能 够 提交 ， 每 个 参与 者 必须 将 事 
务 中 所 有 发 生 改 变 的 对 象 以 及 它 自己 的 状态 〈 准备 好 ) 保存 到 持久 性 存储 中 。 

在 该 协议 的 第 二 个 阶段 ， 事 务 的 每 个 参与 者 执行 最 终 统 一 的 决定 。 如 果 任 何 一 个 参与 者 投票 放弃 
事务 , 那么 最 终 的 决定 将 是 放弃 事务 。 如 果 所 有 参与 者 都 投票 提交 事务 ,那么 最 终 的 决定 是 提交 事务 。 

问题 是 要 保证 每 个 参与 者 都 投票 ， 并 且 达 成 一 个 共同 的 决定 。 在 无 故障 时 ， 该 协议 相当 简单 。 但 
是 ， 协 议 必 须 在 出 现 各 种 故障 〈 例 如 一 些 服务 器 骨 溃 、 消 息 丢 失 或 服务 器 暂时 不 能 通信 ) 时 能 够 正常 
工作 。 

提交 协议 的 故障 模型 16.1.2 节 给 出 了 事务 的 故障 模型 ， 该 模型 同样 适用 于 两 阶段 (或 其 他 任 
何 ) 提交 协议 。 提 交 协 议 的 运行 环境 是 异步 系统 ， 在 该 环境 下 服务 器 可 能 崩溃 ， 消 息 也 可 能 丢失 。 但 
是 ， 提 交 协 议 假设 底层 请 求 - 应 答 协 议 能 去 除 受 损 和 重复 的 消息 ， 并 且 系统 中 没有 拜占庭 故障 一 一 服 
务 器 或 者 崩溃 或 者 服从 所 发 送 的 消息 。 

两 阶段 提交 协议 是 一 种 达到 共识 的 协议 。 在 异步 系统 中 ， 如 果 进 程 可 能 崩溃 ， 那 么 是 不 可 能 达到 
共识 的 〈 参 见 第 15 章 ) 。 但 是 ， 两 阶段 提交 协议 确实 在 这 些 条 件 下 达成 了 共识 ， 这 是 由 于 进程 的 崩 演 
故障 被 屏 项 了， 崩溃 的 进程 被 一 个 新 进程 所 替代 ， 新 进程 的 状态 根据 持久 性 存储 中 保存 的 信息 和 其 他 
进程 所 拥有 的 信息 来 设 定 。 


17. 3.1 两 阶段 提交 协议 


在 事务 的 进行 过 程 中 ， 除 了 参与 者 在 加 入 分 布 式 事务 时 通知 协调 者 之 外 ， 协 调 者 和 参与 者 之 间 没 
有 其 他 通信 。 客 户 的 事务 提交 (RAR) 请 求 被 直接 发 送 给 协调 者 。 如 果 客 户 请 求 abortTransaction, 
或 者 事务 已 被 某 个 参与 者 放弃 ,那么 协调 者 可 以 立即 通知 所 有 参与 者 放弃 事务 。 只 有 当 客 户 请 求 协调 
者 提交 事务 时 ， 两 阶段 提交 协议 才 开 始 使 用 。 

在 两 阶段 提交 协议 的 第 一 个 阶段 ,协调 者 询问 所 有 的 参与 者 是 否 准备 好 提交 ; 在 第 二 个 阶段 ， 协 
调 者 通知 它们 提交 (或 放弃 ) 事务 。 如 果菜 个 参与 者 可 以 提交 它 那 部 分 事务 ,那么 它 将 把 所 有 的 更 新 
和 它 的 状态 记录 到 持久 存储 中 一 一 也 就 是 准备 好 提交 。 完 成 这 些 工作 ， 它 就 同意 提交 事务 。 为 实现 两 
阶段 提交 协议 ， 分 布 式 事务 中 的 协调 者 和 参与 者 利用 图 17-4 总 结 的 操作 进行 通信 。 其 中 ，cpgnCommii、 
doCommit 和 doAbort 方法 是 参与 者 接口 中 的 方法 ， 而 方法 haveCommitted 和 getDecision 位 于 协调 者 接 
口中 。 














canCommit? (trans)— Yes / No 
协调 者 用 该 操作 询问 参与 者 它 是 否 能 够 提交 事务 ， 参 与 者 将 回复 它 的 投票 结果 。 
doCommit(trans) 
协调 者 用 该 操作 告诉 参与 者 提交 它 那 部 分 事务 。 
doAbort(trans) 
协调 者 用 该 操作 告诉 参与 者 放弃 它 那 部 分 事务 。 
haveCommitted(trans, participant) 
参与 者 用 该 操作 向 协调 者 确认 它 已 经 提交 了 事务 。 
getDecision(trans) 一 Yes /No 
当 参 与 者 投 Yes 票 后 一 段 时 间 内 未 收 到 应 答 时 ， 人 参与 者 用 该 操作 向 协调 者 询问 事务 的 投票 表决 结果 。 该 操 
作用 于 从 服务 器 出 溃 或 消息 延迟 中 恢复 。 

















图 17-4 两 阶段 提交 协议 中 的 操作 


两 阶段 提交 协议 由 投票 阶段 和 完成 阶段 组 成 ， 如 图 17-5 所 示 。 在 步骤 2 结束 时 ， 协 调 者 和 所 有 投 
Yes 票 的 参与 者 都 准备 提交 。 在 步骤 3 结束 时 ， 事 务实 际 上 已 经 结束 。 在 步骤 3a 处 ， 协 调 者 和 参与 者 
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提交 事务 ， 因 此 协调 者 将 事务 提交 的 决定 通知 客户 ; 在 步 又 3b 发 生 时 ， 协 调 者 将 放弃 事务 的 决定 通知 
给 客户 。 





— 4 


阶段 1( 投 票 阶段 ) : 
1) 协调 者 向 分 布 式 事务 的 所 有 参与 者 发 送 canCommit? 请 求 。 
2) 当 参 与 者 收 到 canCommit? 请 求 后 ， 它 将 向 协调 者 回复 它 的 投票 〈Yes 或 者 No) 。 在 投 Yes 票 之 前 ， 它 在 持久 
性 存储 中 保存 所 有 对 象 ， 准 备 提 交 。 如 果 投 No 票 ， 参 与 者 立即 放弃 。 
人 阶段 2〈 根 据 投 票 结果 完成 事务 ) : 
3) 协调 者 收集 所 有 的 投票 〈 包 括 它 自己 的 投票 ) 。 
Ca) 如 果 不 存在 故障 并 且 所 有 的 投票 均 是 Yes 时 ， 那 么 协调 者 决定 提交 事务 并 向 所 有 参与 者 发 送 doCommit 
请 求 。 
b 否则 ， 协 调 者 决定 放弃 事务 ， 并 向 所 有 投 Yes 票 的 参与 者 发 送 doAbort 请 求 。 
4) 投 Yes 票 的 参与 者 等 待 协调 者 发 送 的 doCommit 或 者 doAbort 请 求 。 一 旦 参与 者 接收 到 任何 一 种 请 求 消息 ， 它 
根据 该 请 求 放弃 或 者 提交 事务 。 如 果 请 求 是 提交 事务 ， 那 么 它 还 要 向 协调 者 发 送 一 个 haveCommitted 来 确认 
事务 已 经 提交 。 











图 17-$ 两 阶段 提交 协议 


在 步 又 4 中 ， 所 有 的 参与 者 确认 它们 已 提交 ， 这 样 协调 者 能 知道 它 所 记录 的 事务 信息 何 时 将 不 再 
需要 。 
显然 ， 由 于 一 个 或 多 个 服务 器 月 淄 或 服务 器 之 间 的 通信 中 断 ， 协 议 可 能 出 错 。 要 处 理 可 能 的 裔 溃 ， 
每 个 服务 器 需要 将 与 两 阶段 提交 协议 相关 的 信息 保存 到 持久 存储 中 。 这 些 信息 可 由 替代 骨 溃 服务 器 的 
新 进程 获取 。 分 布 式 事务 的 恢复 处 理 将 在 17. 6 节 讨 论 。 
协调 者 和 参与 者 之 间 的 信息 交换 会 由 于 服务 器 崩溃 或 消息 丢失 而 失败 。 采 用 超时 可 防止 进程 无 限 
阻塞 。 当 进程 检测 到 超时 后 ， 它 必须 采取 适当 的 措施 。 考 虑 到 这 一 点 ， 协 议 在 进程 可 能 阻塞 的 每 一 步 
都 包括 了 一 个 超时 动作 。 这 些 动 作 的 设计 虑 及 下 列 事实 : 在 异步 系统 中 ， 超 时 并 不 一 定 意味 着 服务 器 
出 现 故障 。 733 
两 阶段 提交 协议 的 超时 动作 “在 两 阶段 协议 的 不 同 阶段 ， 协 调 者 或 参与 者 都 会 遇 到 这 种 情景 : 不 
能 处 理 它 的 那 部 分 协议 ， 直 到 接收 到 另 一 个 请 求 或 应 答 为 止 。 
首先 考虑 这 样 的 情形 : 某 个 参与 者 投 Ye 票 并 等 待 协调 者 发 回 最 终 决 定 ， 即 告诉 它 是 提交 事务 还 
ARABS. SILA 17-6 的 步骤 2。 这 样 的 参与 者 的 结果 是 不 确定 (uncertain) 的 ， 它 在 从 协调 者 处 得 
到 投票 结果 之 前 不 能 进行 进一步 处 理 。 参 与 者 不 能 单方 面 决定 下 一 步 做 什么 ， 同 时 该 事务 使 用 的 对 象 
也 不 能 释放 以 用 于 其 他 事务 。 参 与 者 向 协调 者 发 出 getDecision 请 求 来 获取 事务 的 结果 。 当 它 收 到 应 答 [734 
时 ， 它 才能 进行 图 17-5 中 协议 的 步 又 4。 如 果 协 调 者 发 生 故障 ， 那 么 参与 者 将 不 能 获得 决定 ， 直 到 协 
调 者 被 替代 为 止 ， 这 可 能 导致 处 在 不 确定 状态 的 参与 者 长 时 间 地 延迟 。 


”协调 者 i 参与 者 








PR RE OER 状态 
A 准备 提交 等待 投 票 ) —_canCommit? O O 
， Yes = 2 。 准备 提交 (不 确定 状态 ) 
3 提交 doCommit 
E 已 提交 
守成 


3G 


图 17-6 两 阶段 提交 协议 中 的 通信 


不 依靠 协调 者 获取 最 终 决定 的 方法 是 通过 参与 者 协作 来 获得 决定 。 这 种 策略 的 优点 是 可 以 在 协调 
者 出 故障 时 使 用 。 有 关 详 细 情 况 请 参考 练习 17.5 和 Bernstein et al. [1987] 。 但 是 ， 即 使 使 用 协作 协议 ， 
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如 果 所 有 的 参与 者 都 处 于 不 确定 状态 ， 那 么 仍然 不 能 得 到 决定 ， 直 到 协调 者 或 一 个 参与 者 得 知 最 终结 
RA ik. 

另 一 种 可 能 导致 参与 者 延迟 的 情况 是 ， 参 与 者 已 经 完成 了 事务 中 所 有 的 客户 请 求 ， 但 还 没有 收 到 
协调 者 发 来 的 canCommit? 消息 。 当 客户 向 协调 者 发 送 closeTransaction 时 ， 该 参与 者 只 能 (通过 锁 超 
时 ) 检测 到 它 是 否 长 时 间 未 收 到 任何 有 关 该 事务 的 操作 请 求 。 因 为 在 这 个 阶段 还 没有 做 出 任何 决定 ， 
所 以 参与 者 可 以 在 一 段 时 间 后 决定 单方 面 放 痉 该 事务 。 

协调 者 在 等 待 参与 者 投票 时 可 能 会 被 延迟 。 由 于 它 还 未 决定 事务 的 最 终 命运 ， 因 此 在 等 待 一 段 时 
间 后 它 可 以 决定 放弃 该 事务 。 但 是 它 必 须 给 所 有 发 送 了 投票 的 参与 者 发 送 doAbort 消息 。 一 些 反应 较 慢 
的 参与 者 此 后 仍然 可 能 投 Yes 票 ， 但 这 些 投 票 将 被 忽略 ， 它 们 将 进入 前 面 描述 的 不 确定 状态 。 

两 阶段 提交 协议 的 性 能 “假设 一 切 运行 正常 ， 即 协调 者 和 参与 者 不 出 现 崩 省， 通信 也 正常 时 ， 有 
六 个 参与 者 的 两 阶段 提交 协议 需要 传递 V 个 canCommit? 消息 和 应 答 ， 然 后 再 有 N 个 doCommit 消息 。 
这 样 ， 消 息 开 销 与 3N 成 正比 ， 时 间 开 销 是 3 次 消息 往返 。 由 于 协议 在 没有 haveCommited 消息 时 仍 能 
正确 运行 一 一 它们 的 作用 只 是 通知 服务 器 删除 过 时 的 协调 者 信息 ， 因 此 在 估计 协议 开销 上 ， 不 将 have- 
Commited 消息 计算 在 内 。 

在 最 坏 的 情况 下 ,两 阶段 提交 协议 在 执行 过 程 中 可 能 出 现任 意 多 次 服务 器 和 通信 和 故障。 尽管 协议 
不 可 能 指定 协议 完成 的 时 间 限 制 ， 但 它 能 够 处 理 连 续 故 障 (服务 器 崩溃 或 消息 丢失 ) ， 并 保证 最 终 
完成 。 

对 于 前 面 提 到 的 超时 问题 ， 两 阶段 提交 协议 可 能 造成 参与 者 很 长 时 间 停 留 在 不 确定 状态 上 。 这 些 延 
迟 主 要 源 于 协调 者 故障 或 者 不 能 从 参与 者 那里 得 到 getDecision 请 求 的 回答 。 即 使 协作 协议 允许 参与 者 可 
以 向 其 他 参与 者 发 送 getDecision 请 求 ， 但 是 当 所 有 参与 者 都 处 于 不 确定 状态 时 ， 延 迟 仍然 不 可 避免 。 

三 阶段 提交 协议 用 来 减少 这 种 延迟 。 但 是 这 种 协议 代价 很 大 ， 在 正常 的 情况 〈 无 故障 情况 ) 下 需要 更 
多 的 消息 和 更 多 次 的 消息 往返 。 关 于 三 阶段 提交 协议 的 详细 情况 ， 请 参见 练习 17.2 和 Bemstein 等 [1987], 


17.3.2 赚 套 事务 的 两 阶段 提交 协议 


一 组 嵌 套 事务 的 最 外 层 事务 被 称 为 顶层 事务 (top-level transaction) ， 除 顶层 事务 之 外 的 其 他 事务 
被 称 为 子 事务 《subtractions)。 在 图 17-1b 中 , TRMBBS, T, Ta, Tas To. TaM Ts 是 子 事务 。 
T, AT, 是 事务 7 的 孩子 事务 ， 即 了 是 它们 的 父 事务 。 类 似 的 ，T, 和 Tis 是 事务 T, 的 孩子 事务 ,7 和 
7 是 事务 T, 的 孩子 事务 。 每 个 子 事务 在 其 父 事务 开始 后 才能 执行 ， 并 在 父 事务 结束 前 结束 。 例 如 ， 
TaM TÆ T, FAERIT, ET 结束 前 结束 。 

当 子 事务 执行 完毕 时 ， 它 独立 决定 是 临时 提交 还 是 放弃 。 临 时 提交 和 准备 好 提交 是 不 同 的 : 它 只 
是 一 个 本 地 决定 ， 也 不 用 备份 到 持久 存储 中 。 如 果 服 务 器 随后 衣 溃 ， 那 么 该 服务 器 的 替代 者 不 能 提交 。 
在 所 有 子 事务 完成 后 ， 临 时 提交 的 事务 参与 到 一 个 两 阶段 提交 协议 中 ， 其 中 ， 临 时 提交 子 事务 所 在 的 
服务 器 表示 要 提交 的 意图 ， 而 那些 有 放弃 祖先 的 子 事务 将 被 放弃 。 准 备 好 提交 确保 一 个 子 事务 能 够 提 
交 ， 而 临时 提交 仅 意 味 着 它 正确 完成 了 ， 如 果 随 后 被 间 及 是 否 提交 ， 它 将 可 能 同意 提交 。 

如 图 17-7 所 示 ， 子 事务 的 协调 者 提供 创建 子 事务 的 操作 ， 并 提供 操作 用 来 使 子 事务 的 协调 者 查询 
父 事务 是 已 经 提交 了 还 是 放弃 了 。 











openSubTransaction(trans) 一 subTrans 
创建 一 个 新 的 子 事务 ， 它 的 父 事务 是 trans， 该 操作 返回 一 个 唯一 的 子 事务 标识 符 。 
getStatus(trans) 一 committed, aborted, provisional 


向 协调 者 询问 事务 trans 的 当前 状态 。 返 回 值 表示 下 列 情况 : 已 提交 、 已 放弃 、 临 时 提交 。 





图 17-7 “和 骸 套 事务 中 协调 者 的 操作 


客户 使 用 openTransaction 操作 创建 一 个 顶层 事务 ， 从 而 启 动 一 组 艇 套 事务 ，openTransaction 操作 返 
回 顶 层 事 务 的 事务 标识 符 。 客 户 调用 openSubTransaction 操作 创建 子 事务 ， 该 操作 的 参数 要 求 指定 它 的 
父 事务 。 新 创建 的 子 事务 自动 加 入 (join) 父 事 务 ， 并 返回 一 个 新 创建 子 事务 的 标识 符 。 
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子 事 务 的 标识 符 必 须 是 其 父 事务 TD 的 扩展 ， 子 事务 标识 符 的 构造 方法 应 使 得 能 根据 子 事务 的 标 
识 符 确定 父 事务 或 顶层 事务 的 标识 符 。 另 外 ， 所 有 子 事务 的 标识 符 必须 是 全 局 唯一 的 。 客 户 通过 在 顶 
层 事务 的 协调 者 上 调用 closeTransaction 或 abortTransaction 来 结束 整个 购 套 事务 。 

与 此 同时 ， 每 个 舱 套 事务 执行 自己 的 操作 。 当 它们 结束 时 ， 管 理 这些 子 事务 的 服务 器 记录 下 事务 
临时 提交 或 放弃 的 信息 。 注 意 ， 如 果 父 事务 放弃 ， 那 么 它 的 子 事务 将 被 强制 放弃 。 

第 16 章 提 到 ， 尽 管子 事务 可 能 被 放弃 ， 但 是 它 的 父 事务 〈 包 括 顶 层 事 务 ) 仍然 可 以 提交 。 在 这 种 
情况 下 ， 父 事务 将 根据 子 事 务 提交 还 是 放弃 采取 不 同 的 动作 。 例 如 ， 银 行 需要 在 特定 的 某 一 天 在 某 一 
支行 上 完成 “未 结算 订单 ”事务 。 这 个 事务 包含 若干 个 腾 套 的 Transfer TRZ, A Transfer 34-5 HH ik 
套 的 deposit 子 事务 和 withdraw 子 事务 组 成 。 我 们 假设 当 某 个 账号 透支 时 ，withdraw 事务 将 被 放弃 ， 相 
应 的 Transfer 事务 也 被 放弃 。 但 是 放弃 某 个 Transfer 子 事务 并 不 要 求 放弃 整个 未 结算 订单 事务 。 相 反 ， 
顶层 事务 将 发 现 Transfer 子 事务 执行 失败 并 执行 相应 的 动作 。 

考虑 图 17-8 所 示 的 顶层 事务 7 和 它 的 子 事务 (图 17-8 基于 图 17- lb) 。 每 个 子 事务 或 者 临时 提交 
RAB. PM, Ty NAC Ty RBH, AE 7 的 命运 由 它 的 父 事务 了 决定 ， 且 最 终 依赖 顶层 事 
FT RE Ta Al 7 都 临时 提交 了 , 但 T, 被 放弃 了 3 这 意味 着 72 和 7 也 必须 被 放弃 。 假设 顶层 事务 了 
ME T, 被 放弃 的 事实 ， 最 终 决定 提交 ， 同 时 不 管 ,被 放弃 的 事实 , 仍 决定 提交 。 


一 KA EHM) 
T, 


临时 提交 在 结 点 X》 
T Ty, 临时 提交 在 结 点 入?) 


NN BE (在 结 点 
T, 被 放弃 (在 结 点 Y) 
一 一 一 一 一 一 芒 。 临时 提交 AA PD 


图 17-8 事务 了 决定 是 否 提交 


当 顶 层 事务 完成 后 ， 它 的 协调 者 将 执行 两 阶段 提交 协议 。 参 与 者 子 事务 不 能 完成 的 唯一 原因 是 在 
它 临时 提交 后 服务 器 出 现 崩 当 。 回 想 一 下 ， 当 每 个 子 事务 被 创建 时 ， 它 就 加 入 到 父 事 务 中 。 因 此 ， 每 
个 父 事务 的 协调 者 都 有 一 个 它 的 孩子 事务 列表 。 当 一 个 嵌 套 事务 临时 提交 时 ， 它 将 自己 的 状态 和 所 有 
后 代 事务 的 状态 报告 给 它 的 父 事 务 。 当 一 个 嵌 套 事务 放弃 时 ， 它 只 需 将 自己 的 放弃 (abort) 报告 给 父 
事务 ， 而 不 用 报告 后 代 事务 的 任何 信息 。 最 终 ， 顶 层 事务 将 获得 藤 套 事务 树 中 所 有 子 事务 及 其 状态 列 
表 ， 而 被 放弃 的 子 事务 则 不 在 这 个 列表 中 。 

图 17-8 给 出 的 例子 中 的 各 协调 者 持 有 的 信息 在 图 17-9 中 列 出 。 注 意 ，T, 和 在 同一 个 服务 器 入 上 运 
行 ， 因 此 它们 共用 一 个 协调 者 。 当 子 事务 T, 放弃 时 ， 它 把 该 事实 报告 给 它 的 父 事 务 7， 但 不 传递 它 的 子 事 
务 Ta FI 了 的 状态 。 如 果 事 务 的 某 个 祖先 事务 被 显 式 放弃 了 或 者 由 于 其 协调 者 衣 溃 而 被 放弃 ， 那 么 这 个 子 事 
务 被 称 为 狐 儿 〈omphan) 。 在 我 们 的 例子 中 ， 子 事务 Ts 和 7 都 是 孤儿 ， 因 为 它们 的 父 事务 被 放弃 ， 从 而 没 
有 将 它们 的 信息 传递 给 顶层 事务 。 但 是 ， 它 们 的 协调 者 可 以 使 用 getStatus 操作 来 获取 父 事务 的 状态 。 如 果 某 
个 事务 被 放弃 ， 那 么 它 的 临时 提交 的 子 事务 也 必须 放弃 ， 而 不 管 项 层 事务 最 终 是 否 提交 。 
临时 提交 列表 放弃 列表 
T Ta’ T, yes Ti Ti Ton 












T, Tus Tz yes TT Ta 
T, Tas Taa no (被 放弃 ) T, 
Ti no FEB) Ti 
Tis Tn Tz (PBST )® Tas T 





no ( 父 事 务 被 放弃 ) Ty 


OT, ,的 父 事务 被 放弃 。 


图 17-9 KRESS SOMA A NS 
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顶层 事务 在 两 阶段 提交 协议 中 扮演 协调 者 的 角色 ， 参 与 者 列表 由 所 有 临时 提交 子 事务 的 协调 者 组 
成 〈 注 意 ， 这 些 子 事务 没有 被 放弃 的 祖先 事务 ) 。 到 了 这 个 阶段 ， 程 序 的 逻辑 已 经 决定 了 顶层 事务 将 
试图 提交 整个 事务 ， 而 不 管 是 否 有 一 些 被 放弃 的 子 事务 。 在 图 17-8 中 ， 事 务 了 的 协调 者 、 事 务 了 | 和 
7 是 参与 者 ， 它 们 将 投票 表决 是 否 提交 。 如 果 它 们 投票 提交 事务 ， 那 么 它们 必须 将 对 象 的 状态 保存 到 
持久 存储 中 来 准备 (prepare) 提交 。 这 个 状态 被 记录 在 顶层 事务 中 ， 此 后 ， 两 阶段 提交 协议 可 以 使 用 
层次 的 或 平面 的 方式 来 执行 。 

两 阶段 提交 协议 的 第 二 阶段 与 非 髓 套 的 情况 是 一 致 的 。 协 调 者 收集 所 有 的 投票 ， 然 后 将 最 终 决定 
通知 所 有 参与 者 。 协 议 结束 时 ， 协 调 者 和 参与 者 将 一 致 地 提交 或 一 致 地 放弃 整个 事务 。 

层次 化 两 阶段 提交 协议 ”在 这 种 方法 中 ， 两 阶段 提交 协议 变 成 一 个 多 层 的 氛 套 协议 。 顶 层 事 务 的 
协调 者 和 作为 子 事务 的 直接 父 事务 的 协调 者 进行 通信 。 它 向 每 一 个 子 事务 的 协调 者 发 送 canCommit? 消 
息 ， 这 些 子 事务 协调 者 收 到 消息 后 ， 又 向 各 自 的 子 事 务 协调 者 发 送 该 消息 (直至 整个 媒 套 事务 树 )。 
每 个 参与 者 首先 收集 其 后 代 事 务 的 应 答 ， 然 后 再 应 答 自 己 的 父 事 务 。 在 我 们 的 例子 中 ,7 向 事务 T, 的 
协调 者 发 送 canCommit? WB, We T, 向 Ts 发送 canCommit? 消息 。 由 于 事务 T, 被 放弃 ， 因 此 协议 没 
有 向 它 的 协调 者 发 送 消 息 。 图 17-10 给 出 了 canCommit? 需要 的 参数 。 其 中 ， 第 一 个 参数 是 顶层 事务 的 
TID ， 而 第 二 个 参数 是 发 起 canCommit? 调用 的 事务 的 TID。 每 当 参 与 者 接收 到 调用 后 ， 将 在 它 的 事务 
列表 中 查看 已 临时 提交 的 事务 或 与 第 二 个 参数 中 的 TID 相 匹 配 的 子 事务 。 例 如 ， 由 于 7 和 Ty, 运行 在 
同一 个 服务 器 上 ， 因 此 7, 的 协调 者 也 是 7 的 协调 者 ， 但 是 如 果 服 务 器 收 到 的 canCommit? 调用 的 第 二 
TERE T 时 ， 只 需 处 理 7 即 可 。 





canCommit? (trans, subTrans)— Yes / No 
用 来 向 某 个 子 事务 的 协调 者 询问 是 否 能 够 提交 某 个 子 事 务 subTrans。 第 一 个 参数 trans 是 
顶层 事务 的 标识 符 。 参 与 者 用 Yes 票 或 者 No 票 来 回复 。 








17-10 ”层次 化 两 阶段 提交 协议 中 的 canCommit? 调用 


如 果 参 与 者 找到 能 够 匹配 第 二 个 参数 的 任何 子 事务 ， 那 么 它 将 准备 对 象 并 且 回 复 Yes。 如 果 没 有 
找到 匹配 的 子 事务 ， 那么 它 在 执行 子 事务 之 后 系统 必定 出 现 过 月 演 ， 因 此 它 将 回复 No, 
平面 两 阶段 提交 协议 在 这 种 方法 中 ,顶层 事务 的 协调 者 向 临时 提交 列表 中 的 所 有 子 事务 的 协调 
者 发 送 canCommit? 消息 。 在 我 们 的 例子 中 ,顶层 事 务 向 7 和 7 的 协调 者 发 送 消 息 。 此 时 ， 每 个 参与 
者 都 用 顶层 事务 的 TID 来 引用 事务 。 每 个 参与 者 都 查找 自己 的 事务 列表 ， 寻 找 能 够 匹配 那个 TD 的 事 
务 或 子 事 务 。 例 如 ，T, 的 协调 者 也 是 7 的 协调 者 ， 因 为 它们 运行 在 同一 个 服务 器 (N) Eo 
但 是 ， 当 服务 器 NN 上 有 临时 提交 子 事务 和 放弃 子 事务 并 存 时 ， 这 种 方法 不 能 为 协调 者 正确 处 理 提 
供 足够 的 信息 。 如 果 服 务 器 N 的 协调 者 正 准 备 提交 T， 根 据 本 地 信息 ，T,, 和 7T, 都 处 于 临时 提交 状态 ， 
那么 两 者 均 会 提交 。 但 是 对 于 ,来 说 ， 由 于 其 父 事务 T, 被 放弃 ， 因 此 提交 Ta 是 不 正确 的 。 为 了 处 理 
这 种 情况 , 平面 两 阶段 提交 协议 中 的 canCommit? 操作 的 第 二 个 参数 提供 了 放弃 子 事务 的 列表 ， 如 
图 17-11 所 示 。 参 与 者 提交 顶层 事务 的 后 代 ， 除 非 这 些 后 代 有 被 放弃 的 祖先 。 当 参与 者 收 到 canCom- 
mit? 请 求 后 ， 它 进行 下 面 的 操作 : 
e 如 果 参 与 者 有 临时 提交 的 子 事务 ， 并 且 它 们 是 顶层 事务 trans 的 后 代 事务 时 : 
一 确保 这 些 子 事务 的 祖先 不 在 abortList 中 ， 然 后 准备 提交 (将 事务 状态 和 它 的 对 象 记录 到 持久 
存储 中 ) 。 
一 如 果子 事务 的 祖先 在 abortList 中 ， 放 弃 这 些 子 事务 。 
一 向 协调 者 发 送 Yes。 
。 如 果 参 与 者 没有 任何 顶层 事务 的 临时 提交 子 事务 ， 那 么 在 执行 子 事务 后 系统 一 定 曾经 崩溃 过 ， 
故 向 协调 者 发 送 No。 | 
两 种 方法 的 比较 ”层次 化 协议 的 优点 在 于 ， 在 任何 阶段 ， 参 与 者 只 需 查找 其 直接 父 事务 的 子 事务 ， 
而 平面 协议 要 求 提供 一 个 放弃 列表 来 去 除 那些 祖先 已 放弃 的 子 事务 。Moss [1985] 更 喜欢 平面 算法 ， 
因为 平面 协议 允许 顶层 事务 的 协调 者 直接 和 所 有 的 参与 者 进行 通信 ， 而 层次 化 事务 需要 按 舱 套 关 系 来 
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传递 一 系列 消息 。 


Es abortList)— Yes / No 





由 协调 者 向 参与 者 调用 该 操作 ， 用 来 询问 它 是 否 能 够 提交 某 个 事务 。 参 与 者 用 Yes 票 或 
者 No 票 来 回复 。 





图 17-11 平面 两 阶段 提交 协议 中 的 canCommit? 调用 


超时 动作 “与 非 骸 套 事务 的 两 阶段 提交 协议 一 样 ， 艇 套 事 务 的 两 阶段 提交 协议 也 会 在 同样 3 个 地 
方 造成 协调 者 和 参与 者 延迟 。 除 此 之 外 ， 还 有 第 4 个 地 方 会 延迟 子 事务 。 考 虑 被 放弃 子 事务 的 临时 提 
交 孩 子 事务 : 它们 没 必 要 得 到 事务 提交 或 放弃 的 信息 。 在 我 们 的 例子 中 ，72 就 是 这 样 一 个 子 事务 一 一 
它 被 临时 提交 ， 但 是 它 的 父 事 务 T, 却 被 放弃 MAT, 没有 成 为 参与 者 。 为 了 解决 这 个 问题 ， 任 何 未 
收 到 canCommit? 消息 的 子 事务 在 经 过 超时 时 间 后 将 进行 查询 。 图 17-7 中 的 getStatus 操作 可 支持 子 事 
务 查询 它 的 父 事务 是 否 提 交 / 放 弃 。 为 了 保证 这 些 查 询 是 可 能 的 ， 已 放弃 的 子 事务 的 协调 者 需要 存活 一 
段 时 间 。 如 果 一 个 孤儿 子 事务 不 能 联系 上 其 父 事 务 ， 那 么 它 将 最 终 放弃 。 


17.4 分布 式 事务 的 并 发 控制 

每 个 服务 器 要 管理 很 多 对 象 ， 它 必须 保证 在 并 发 事务 访问 这 些 对 象 时 ， 这 些 对 象 仍 保持 一 致 性 。 
因此 ， 每 个 服务 器 需要 对 自己 的 对 象 应 用 并 发 控制 机 制 。 分 布 式 事务 中 所 有 服务 器 共同 保证 事务 以 串 
行 等 价 方式 执行 。 

这 意味 着 ， 如 果 事 务 了 对 某 一 个 服务 器 上 对 象 的 冲突 访问 在 事务 U 之 前 ,那么 在 所 有 服务 器 上 对 
对 象 的 冲突 操作 ， 事 务 了 都 在 事务 0 之前。 


17.4.1 加 锁 


在 分 布 式 事务 中 ， 某 个 对 象 的 锁 总 是 本 地 特有 的 《在 同一 个 服务 器 中 )。 是 否 加 锁 是 由 本 地 锁 管 
理 器 决定 的 。 本 地 锁 管理 器 决定 是 满足 客户 对 锁 的 请 求 ， 还 是 让 发 出 请 求 的 事务 等 待 。 但 是 ， 事 务 在 
所 有 服务 器 上 被 提交 或 放弃 之 前 ， 本 地 锁 管理 器 不 能 释放 任何 锁 。 在 使 用 加 锁 机 制 的 并 发 控制 中 ， 原 
子 提交 协议 进行 时 对 象 始终 被 锁 住 ， 其 他 事务 不 能 访问 这 些 对 象 。 如 果 事 务 在 第 一 阶段 就 被 放弃 ， 锁 
可 以 提早 释放 。 

由 于 不 同 服务 器 上 的 锁 管理 器 独立 设置 对 象 锁 ， 因 此 ， 对 不 同 的 事务 ， 它 们 的 加 锁 次 序 可 能 不 一 
致 。 考 虑 下 图 中 事务 了 和 事务 中 在 服务 器 夺 和 服务 器 了 之 问 的 交错 执行 : 


T U 
Write(A) 在 服务 器 下 上 对 4 加 锁 





Write(B) ERSA Y EXB 加 锁 
Read(B) 在 服务 器 Y 上 等 待 U 


事务 了 锁 住 了 服务 器 了 上 的 对 象 4， 而 事务 U 锁 住 了 服务 器 Y 上 的 对 象 8。 此后， 当 了 试图 访问 
服务 器 Y 上 的 对 象 B 时 ， 要 等 待 0 的 锁 。 同 样 ， 事务 U 在 访问 服务 器 半 的 对 象 4 时 也 需要 等 待 了 的 
锁 。 因 此 ， 在 服务 器 和 上 ， 事 务 了 在 事务 USM; 而 在 服务 器 了 上， 事务 0U 在 事务 了 之 前 。 这 种 不 同 
的 事务 次 序 导致 事务 之 闻 的 循环 恢 赖 ， 从 而 引起 分 布 式 死 锁 。 有 关 分 布 式 死 锁 的 检测 和 解除 问题 在 
17.5 节 讨 论 。 一 旦 检测 出 死 锁 ， 必 须 放 弃 其 中 的 某 个 事务 来 解除 死 锁 。 这 时 ， 协 调 者 将 得 到 通知 ， 并 
且 它 将 放弃 该 事务 涉及 的 所 有 参与 者 上 的 事务 。 


17.4.2 时 间 蕉 并 发 控制 


对 于 单 服务 器 事务 ， 协 调 者 在 它 开 始 运行 时 分 配 一 个 唯一 的 时 间 惟 。 通 过 按 访 问 对 象 的 事务 的 时 
间 惟 次 序 提交 对 象 的 版 本 来 保证 串 行 等 价 人 性 。 在 分 布 式 事务 中 ， 协 调 者 必须 保证 每 个 事务 附 上 全 局 唯 
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分 布 式 事务 中 的 所 有 服务 器 共同 保证 事务 执行 的 串 行 等 价 性 。 例 如 ， 如 果 在 某 个 服务 器 上 ， 由 事 
务 也 访问 的 对 象 版 本 在 事务 了 访问 后 提交 ; 而 在 另 一 个 服务 器 上 ， 事 务 7 和 事务 U 又 访问 了 同一 个 对 
R, 那么 它们 也 必须 按 相 同 次 序 提 交 对 象 。 为 了 保证 所 有 服务 器 上 的 相同 次 序 ， 协 调 者 必须 就 时 间 惟 
排序 达成 一 致 。 时 间 稚 是 一 个 二 元 组 < 本 地 时 间 蕉 ， 服 务 器 这 > 对。 在 时 间 稚 的 比较 中 ， 首 先 比较 本 
地 时 间 稚 ,然后 比较 服务 器 id。 l 

即使 各 服务 器 的 本 地 时 钟 不 同步 ， 也 能 保证 事务 之 间 的 相同 顺序 。 但 是 为 了 效率 的 原因 ， 各 协调 
者 之 间 的 时 间 稚 还 是 要 求 大 致 同步 。 如 果 是 这 样 的 话 ， 事 务 之 间 的 顺序 通常 与 它们 实际 开始 的 时 间 顺 
序 相 一 致 。 利 用 第 14 章 中 的 本 地 物理 时 钟 同步 方法 可 以 保证 时 间 戳 的 大 致 同步 。 

当 利用 时 间 稚 机 制 进行 并 发 控制 时 ， 按 照 16. 6 节 中 所 描述 的 规则 执行 操作 即 可 解决 冲突 。 如 果 
为 了 解决 冲突 需要 放弃 某 个 事务 时 ， 相 应 的 协调 者 将 得 到 通知 ， 并 且 它 将 在 所 有 的 参与 者 上 放弃 该 
BS, XH, ， 如 果 事务 能 够 坚持 到 客户 发 起 提交 请 求 命令 时 ， 这 个 事务 总 能 提交 。 因 此 在 两 阶段 提 
交 协 议 中 ， 正 常情 况 下 参与 者 同意 提交 。 参 与 者 不 同意 提交 的 唯一 情形 是 参与 者 在 事务 执行 过 程 中 
AaB 


17.4.3 ”乐观 并 发 控制 


在 乐观 并 发 控制 中 ， 每 个 事务 在 提交 之 前 必须 首先 进行 验证 。 事 务 在 验证 开始 时 首先 要 附加 一 个 
事务 号 ， 事 务 的 串 行 化 是 根据 这 些 事务 号 的 顺序 实现 的 。 分 布 式 事务 的 验证 由 一 组 独立 的 服务 器 共同 
完成 ， 每 个 服务 器 验证 访问 自己 对 象 的 事务 。 这 些 验证 在 两 阶段 提交 协议 的 第 一 个 阶段 进行 。 

考虑 两 个 事务 了 和 0 的 交错 执行 ， 它 们 分 别 访问 服务 器 和 Y 上 的 对 象 4 和 B: 


了 U 











Read(A) 在 服务 器 了 上 Read( B) 在 服务 器 了 上 
Write(A) Write( B) 
Read(B) 在 服务 器 了 上 Read(A) 在 服务 器 三 上 
Write( B) Write(A) 


在 服务 器 中 上 ， 事 务 了 在 事务 忌 之 前 访问 对 象 ; 在 服务 器 了 上 上， 事务 U0 在 事务 了 之 前 访问 对 象 。 
如 果 现 在 事务 7 和 U 同 时 开始 验证 过 程 ， 但 服务 器 工 首先 验证 7， 而 服务 器 了 首先 验证 U, Æ 16.54 
介绍 的 简化 的 验证 协议 中 ， 要 求 一 次 只 能 有 一 个 事务 执行 验证 和 更 新 阶段 。 这 样 ， 服 务 器 在 一 个 事务 
完成 验证 前 不 能 验证 其 他 事务 ， 从 而 造成 提交 死 锁 。 

16. 5 节 中 介绍 的 验证 协议 假设 验证 过 程 很 快 ， 这 在 单 服务 器 事务 的 情况 下 是 成 立 的 。 但 在 分 布 式 
事务 中 ， 由 于 两 阶段 提交 协议 需要 一 定 的 时 间 ， 因 此 在 获得 一 致 提交 决定 之 前 ， 可 能 推迟 其 他 事务 进 
人 验证 过 程 。 在 分 布 式 乐观 并 发 控制 中 ， 每 个 服务 器 使 用 并 行 验证 协议 。 这 是 对 向 前 及 向 后 验证 的 扩 
展 ， 允 许多 个 事务 同时 进入 验证 阶段 。 在 这 种 扩展 验证 中 ， 向 后 验证 除了 检查 规则 2， 还 必须 检查 规 
则 3。 也 就 是 说 ， 正 在 被 验证 事务 的 写 集合 必须 和 较 早 启动 的 与 被 验证 事务 重 倒 的 事务 的 写 集合 进行 
检查 ， 着 两 者 是 否 重 琶 。Kung 和 Robinson [1981] 在 他 们 的 论文 中 叙述 了 并 行 验证 过 程 。 

如 果 使 用 了 并 行 验证 ， 事 务 就 不 会 在 提交 过 程 中 出 现 死 锁 。 然 而 ， 如 果 服 务 器 只 是 进行 独立 验证 ， 
同一 个 分 布 式 事务 的 不 同 服务 器 可 能 按 不 同 的 次 序 来 申 行 化 同一 组 事务 ， 例 如 ， 在 服务 器 上 先 执行 
了 再 执行 U0， 在 服务 器 Y 上 先 执 行 了 再 执行 7。 

分 布 式 事务 的 服务 器 必须 防止 这 种 情况 发 生 。 一 个 解决 方案 是 在 每 个 服务 器 完成 本 地 验证 后 ， 再 
执行 一 个 全 局 验证 [ Ceri and Owicki 1982] 。 全 局 验证 用 来 检查 每 个 服务 器 上 的 事务 执行 次 序 是 否 满足 
串 行 化 要 求 ， 换 言 之 ， 这 些 事务 不 会 形成 环 路 。 

另 一 种 方案 是 让 分 布 式 事务 的 所 有 服务 器 在 验证 开始 时 使 用 相同 的 全 局 唯一 的 事务 号 【Schlageter 
1982] 。 两 阶段 提交 协议 的 协调 者 负责 生成 全 局 唯一 的 事务 号 ， 并 将 此 事务 号 通过 canCommit? 消息 传 
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给 参与 者 。 由 于 不 同 的 服务 器 会 协调 不 同 的 事务 ， 这 些 服务 器 必须 像 在 分 布 式 时 间 蕉 排序 协议 中 一 样 ， 
对 生成 的 事务 号 有 个 统一 的 排序 。 

Agrawal 等 人 [1987] 提出 了 Kung 和 Robinson 算法 的 一 个 变种 ， 这 个 变种 对 只 读 事 务 进行 了 优化 ， 
并 且 结合 了 称 为 MVGV (多 版 本 通用 验证 ) 的 算法 。MVGYV 是 一 种 并 行 验证 ， 它 确保 事务 号 反映 了 串 
行 化 次 序 ， 但 是 它 要 求 延 迟 某 些 事务 在 提交 之 后 的 可 见 性 。MVGYV 还 允许 事务 号 改变 ， 以 使 更 多 的 可 
能 失败 的 事务 执行 验证 。Agrawal 等 人 的 论文 还 提出 了 一 种 用 于 提交 分 布 事务 的 算法 。 它 与 Schlageter 
的 方案 类 似 ， 同 样 需要 全 局 唯一 的 事务 号 。 在 读 阶段 结束 时 ， 协 调 者 发 布 一 个 全 局 事务 号 ， 每 个 参与 
者 试图 用 这 个 事务 号 来 验证 它们 的 本 地 事务 。 但 是 ， 如 果 发 布 的 全 局 事务 号 太 小 ， 某 些 参与 者 不 能 验 
证 自己 的 事务 ， 那 么 它 会 通知 协调 者 要 求 增 大 事务 号 。 如 果 没 有 找到 合适 的 事务 号 ， 那 么 参与 者 只 能 
放弃 事务 。 最 终 ， 如 果 所 有 的 参与 者 能 够 验证 它们 的 事务 ， 那 么 协调 者 将 收 到 每 个 参与 者 发 来 的 事务 
号 ; 如 果 这 些 事务 号 相同 ， 那 么 事务 就 能 提交 。 


17.5 分布 式 死 锁 


在 16. 4 节 中 有 关 死 锁 问 题 的 讨论 表明 ， 单 服务 器 在 使 用 加 锁 机 制 进行 并 发 控制 时 可 能 出 现 死 锁 。 
服务 器 要 么 防止 死 锁 发 生 ， 要 么 检测 并 解除 死 锁 。 采 用 超时 的 方法 来 解除 死 锁 是 一 种 麻烦 的 方法 
因为 设 定 合适 的 超时 间隔 很 困难 ， 它 会 导致 事务 不 必要 地 放弃 。 利 用 死 锁 检测 方法 ， 只 有 死 锁 中 的 事 
务 才 被 放弃 。 大 多 数 死 锁 检测 方法 都 是 通过 在 事务 等 待 图 中 寻找 环 路 而 实现 的 。 在 包 食 多 个 事务 访问 
多 个 服务 器 的 分 布 式 系统 中 ， 全 局 等 待 图 在 理论 上 可 以 通过 局 部 等 待 图 构造 出 来 。 全 局 等 待 图 中 的 环 
路 在 局 部 等 待 图 中 可 能 不 存在 ， 也 就 是 说 ， 可 能 出 现 分 布 式 死 锁 。 等 待 图 是 有 向 图 ， 其 结 点 表示 事务 
和 对 象 ， 边 表示 事务 拥有 某 个 对 象 或 者 事务 正在 等 待 对 象 。 死 锁 出 现 的 充 要 条 件 是 等 待 图 中 存在 一 个 
环 路 。 

图 17-12 表示 3 个 事务 UL VW 的 交错 执行 ， 它 涉及 服务 器 世上 的 对 象 4 和 服务 器 了 上 的 对 象 
B， 以 及 服务 器 Z 上 的 对 象 C AD. 








d.deposit(10) RHED 
b.deposit(10) 
a.deposit(20) 在 结 点 
锁 住 4 


c.deposit(30) 在 结 点 Z 
b.withdraw(30) ”在 结 点 7 锁 住 C 
等 待 c.withdraw(20) 





a.withdraw(20) 在 X 处 等 待 
图 17-12 事务 U、V 和 玉 的 交错 执行 


图 17-13a 的 等 待 图 表明 一 个 死 锁 环 路 由 不 同 的 边 组 成 ， 这 些 边 分 别 代表 某 个 事务 等 待 某 个 对 象 以 
及 某 一 对 象 被 某 个 事务 持 有 。 由 于 任何 事务 一 次 只 能 等 待 一 个 对 象 ， 因 此 可 以 在 死 锁 环 路 中 删除 对 象 
结 点 ， 从 而 将 等 待 图 简化 为 图 17-13b。 

分 布 式 死 锁 的 检测 要 求 在 分 布 于 多 个 服务 器 上 的 全 局 等 待 图 中 寻找 环 路 。 第 16 章 提 到 局 部 等 待 图 
可 以 由 每 一 个 服务 器 上 的 锁 管理 器 构造 。 在 上 面 的 例子 中 ， 各 服务 器 的 局 部 等 待 图 为 : 

服务 器 Y: U>V (HE UWR b. withdraw (30) 时 出 现 ) 

服务 器 Z: VW (Æ VIR o withdraw (20) 时 出 现 ) 

服务 器 和 X: WU (在 多 请 求 a withdraw (20) 时 出 现 ) 

每 个 服务 器 都 构造 出 全 局 等 待 图 的 一 部 分 ， 因 此 ， 各 服务 器 之 间 通 过 通信 才能 发 更 图 中 的 环 路 。 

一 种 简单 的 解决 方案 是 使 用 集中 式 死 锁 检测 ， 其 中 的 一 个 服务 器 担任 全 局 死 锁 检 测 器 。 全 局 死 锁 
检测 器 通过 收集 各 服务 器 发 送 的 最 新 的 局 部 等 待 图 的 副本 来 构造 全 局 等 竺 图。 全 局 死 锁 检测 器 在 全 局 
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等 待 图 中 检查 环 路 。 一 旦 发 现 环 路 ， 就 要 决定 如 何 解除 死 锁 ， 并 通知 各 服务 器 通过 放弃 相应 事务 来 解 
除 死 锁 。 





拥有 


a) b) 
图 17-13 分 布 式 死 锁 


集中 式 死 锁 检测 并 不 是 一 个 非常 好 的 方法 ， 最 主要 的 问题 是 它 依赖 单一 的 服务 器 来 执行 检测 。 因 
此 它 和 分 布 式 系统 中 其 他 集中 式 解 决 方案 一 样 ， 可 用 性 较 差 ， REA, MAM SE. MA, AK 
地 传输 局 部 等 待 图 代价 很 大 。 如 果 不 频繁 地 收集 全 局 等 待 图 ， 那 么 可 能 需要 更 长 的 时 间 才 能 检测 出 
死 锁 。 

假死 锁 如果“ 检测 出 ”的 死 锁 并 非 真 正 的 死 锁 ， 那么 这 个 死 锁 被 称 为 “假死 锁 ” (phantom 
deadlock) 。 在 分 布 式 死 锁 检测 中 ， 等 待 关系 的 信息 在 服务 器 之 间 传 递 。 如 果 确 实 存在 死 锁 ， BARK 
有 一 个 结 点 有 是 够 的 信息 来 发 现 环 路 。 但 是 由 于 收集 过 程 需 要 一 定 的 时 间 ， 在 这 段 时 间 内 ， 可 能 有 的 
事务 已 经 放弃 了 某 些 锁 ， 这 种 情况 下 死 锁 就 不 存在 了 。 

考虑 图 17-14 中 的 情景 ， 一 个 全 局 死 锁 检测 器 收 到 来 自 服务 器 下 和 了 的 局 部 等 竺 图。 假设 此 时 事 
务 U 释放 了 服务 器 上 的 对 象 ， 并 且 请 求 服务 器 Y 上 被 事务 V 拥 有 的 对 象 。 而 且 ， 假设 全 局 检测 器 先 
收 到 服务 器 了 的 等 待 图 ， 再 收 到 服务 器 X AERA. IIS, BAP TU 并 不 存在 ,但 仍然 检测 出 环 路 
7 一 [一 一 7， 这 就 是 一 个 假死 锁 。 


T= U V eee 了 a 

AN 

x > U V 

局 部 等 待 图 局 部 等 待 图 全 局 死 锁 检 测 器 
图 17-14 局 部 等 待 图 和 全 局 等 待 图 


细心 的 读者 可 能 意识 到 在 采用 两 阶段 加 锁 的 情况 下 ， 事务 不 能 在 释放 对 和 象 后 获取 新 的 对 象 ， 因 此 
假死 锁 也 就 不 会 出 现 。 现 在 来 考虑 检测 到 环 路 TU 一 V7 了 之后， 要 么 表明 这 是 一 个 死 锁 ， 要么 表明 
T、U 和 下 最 终 都 会 提交 。 但 实际 上 ， 它 们 中 的 任何 一 个 都 不 能 提交 ， 因 为 它们 彼此 相互 等 待 永远 不 
会 释放 的 对 象 。 

如 果 在 死 锁 检测 过 程 中 等 待 死 锁 环 路 中 的 某 个 事务 被 放弃 ， 那 么 也 有 可 能 检测 出 假死 锁 。 例 如 ， 
如 果 有 一 个 环 路 7 一 [一 一 7， 但 在 收集 到 U 的 信息 后 ,事务 0 被 放弃 ， 由 于 环 路 被 打 断 ， 也 就 没有 
死 锁 。 
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边 追 逐 方法 ” 另 一 种 分 布 式 死 锁 检测 方法 称 为 边 追 逐 方法 (edge chasing) 或 路 径 推 方法 (path 
chasing) 。 在 这 种 方法 中 ,不 需要 构造 全 局 等 待 图 ， 但 是 每 个 服务 器 都 有 很 多 关于 边 的 信息 。 服 务 器 通 
过 转发 探 询 〈prope) 消息 来 发 现 环 路， 这 些 探 询 消息 沿 着 分 布 式 系统 的 图 的 边 发 送 。 一 个 探 询 消息 包 
会 全 局 等 待 图 中 表示 路 径 的 一 个 事务 等 待 关系 。 

问题 是 : 服务 器 何 时 发 送 探 询 消 息 ? 考虑 图 17-13 中 服务 器 并 的 情形 。 此 时 该 服务 器 刚刚 在 它 的 
局 部 等 待 图 中 加 上 边 WU, SWAN, 事务 U 正 在 等 待 访问 对 象 B， 而 服务 器 Y 上 的 对 象 B 正 被 事务 
V 使 用 。 这 条 边 可 能 是 环 路 VOT >T, WUN 的 一 部 分 ， 它 涉及 使 用 其 他 服务 器 上 对 象 的 事 
务 。 这 意味 着 可 能 存在 分 布 式 死 锁 环 路 ， 可 以 通过 向 服务 器 了 发 送 探 询 消息 找到 这 个 死 锁 环 路 。 

现在 来 考虑 当 服务 器 了 将 过 [一 "多 加 入 它 的 局 部 等 待 图 之 前 的 情景 : 此 时 ， 丈 并 不 在 等 待 。 因 此 
不 需要 发 送 探 询 消息 。 

每 个 分 布 式 事务 在 某 个 服务 器 〈 被 称 为 事务 的 协调 者 ) 上 启动 ， 并 在 若干 个 服务 器 (事务 的 参与 
者 ) 之 间 移 动 ， 每 个 参与 者 和 协调 者 通信 。 在 任何 时 刻 ， 事 务 或 者 是 活动 的 ， 或 者 在 某 个 服务 器 上 等 
待 。 协 调 者 负责 记录 事务 是 活动 的 还 是 正在 等 待 某 个 对 象 ， 并 且 参 与 者 可 以 从 它们 的 协调 者 那里 获取 
这 些 信息 。 锁 管理 器 在 事务 开始 等 待 对 象 时 通知 协调 者 ， 同 样 在 事务 获取 对 象 而 又 成 为 活动 事务 时 也 
通知 协调 者 。 当 事务 被 放弃 而 打破 死 锁 时 ， 它 的 协调 者 将 通知 所 有 的 参与 者 ， 所 有 的 相关 锁 将 被 释放 ， 
该 事务 的 所 有 边 也 从 局 部 等 待 图 中 删除 。 

边 追 逐 算法 由 下 面 3 步 组 成 一 一 开始 阶段 、 死 锁 检测 和 死 锁 解除 。 

开始 阶段 ， 当 服务 器 发 现 某 个 事务 了 开始 等 待 事务 U, m 了 正在 等 待 另 一 个 服务 器 上 的 对 象 时 ， 
该 服务 器 将 发 送 一 个 包含 <TU > 的 探 询 消息 来 启动 一 次 检测 过 程 ， 这 个 消息 将 发 送 到 阻塞 U 的 服务 
器 。 有 时 U 和 其 他 事务 共享 锁 ， 那么 探 询 消 息 将 被 发 送 到 这 些 锁 的 拥有 者 。 有 时 ， 有 些 事务 可 能 会 在 
稍 后 共享 该 锁 ， 这 时 ， 探 询 消息 也 将 发 送 给 这 些 事务 。 

死 锁 检 测 : 死 锁 检测 过 程 包含 接收 探 询 消息 并 确定 是 否 有 死 锁 产生 ， 以 及 是 否 需 要 转发 探 询 消息 
三 个 步骤 。 

例如 ， 当 对 象 所 在 的 服务 器 接收 到 探 询 消息 <T_>U > (表示 工 正 在 等 待 拥 有 本 地 对 象 的 事务 UV) 
m, CRE URTEA. WE U 也 在 等 待 男 一 个 事务 (例如 V)， 那 么 7 就 添加 到 探 询 消息 中 
(成 为 <?7 一 [天 了 > ) ， 如 果 了 也 在 等 待 另 外 的 对 象 ， 那 么 继续 转发 探 询 消息 。 

就 这 样 ， 全 局 等 待 图 上 的 路 径 被 逐一 构造 出 来 。 在 转发 探 询 消息 之 前 ， 服 务 器 将 检测 当 事 务 (以 
7 为 例 ) 加 入 到 等 待 序列 后 是 否 会 使 探 询 消 息 产 生 环 路 〈 例 如 < 7 一 一 7 > ) 。 如 果 图 中 产生 环 路 ， 
那么 就 检测 出 死 锁 。 

死 锁 解除 : 当 检 测 出 环 路 后 ， 环 路 中 的 某 个 事务 将 被 放弃 以 打破 死 锁 。 

在 我 们 的 例子 中 ， 下 面 的 步骤 描述 了 在 相应 的 检测 阶段 ， 如 何 开 始 死 锁 的 检测 过 程 ， 以 及 探 询 消 
上 息 的 转发 过 程 。 | 

。 服务 器 发 起 死 锁 检 测 过 程 ， 向 对 象 B 的 服务 器 了 发 送 探 询 消息 < WU >, 

。 服务 器 了 收 到 探 询 消息 <W-U > 后 ,发现 对 象 B 被 事务 VV 拥有， 因此 将 V 附 加 在 探 询 消 息 上 ， 

产生 <WW UV>。 由 于 VV 在 服务 器 Z 上 等 待 对 象 C， 因 此 该 探 询 消息 被 转发 到 服务 器 Zo 

。 服务 器 Z 收 到 探 询 消息 < W>U>V > ， 并 且 发 现 C 被 事务 WHA, 那么 将 更 附加 在 探 询 消息 

后 形成 <W-U-V-W >, 

这 个 路 径 上 包含 一 个 环 路 ， 服 务 器 会 检测 出 一 个 死 锁 。 必 须 放 弃 环 路 中 的 某 个 事务 来 解除 死 锁 。 
可 根据 事务 优先 级 来 选择 被 放弃 的 事务 。 

图 17-15 表示 了 从 对 象 4 的 服务 器 发 出 探 询 消 息 并 最 终 在 对 象 C 的 服务 器 上 检测 出 死 锁 的 过 程 。 
其 中 探 询 消息 用 粗 箭头 表示 ， 对 象 用 圆圈 表示 ， 事 务 协 调 者 用 抢 形 表示 。 每 个 探 询 消息 直接 连接 两 个 
对 象 。 在 实现 中 ,在 服务 器 发 送 探 询 消息 到 另 一 个 服务 器 之 前 ， 它 首先 将 询问 路 径 上 最 后 一 个 事务 的 
协调 老 ， 来 确定 该 事务 是 否 在 等 待 其 他 对 象 。 例 如 ， 在 对 象 妃 的 服务 器 发 送 探 询 消息 < 一 7 一 了 > 之 
前 ， 它 询问 了 的 协调 者 来 确定 了 正在 等 待 对 象 C。 在 绝 大 多 数 边 追逐 算法 中 ， 对 象 所 在 的 服务 器 通常 
向 事务 协调 者 发 送 探 询 消息 ， 事 务 协调 者 再 将 消息 转发 到 事务 等 待 的 对 象 所 在 的 服务 器 。 在 我 们 的 例 
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子 中 ,对 象 B 的 服务 器 发 送 探 询 消息 <W-U>V > 到 了 的 协调 者 ， 然 后 了 的 协调 者 再 将 其 转发 到 C 的 
服务 器 。 这 表明 ， 转 发 一 个 探 询 消息 需要 发 送 两 个 消息 。 


W>U-> VW 


死 锁 被 
检测 到 C 


等 待 











图 17-15 ”传递 探 询 消息 来 检测 死 锁 


假设 等 待 的 事务 没有 放弃 ， 并 生 不 会 丢失 消息 ， 服 务 器 也 不 会 般 演 ， 那 么 上 面 的 算法 能 够 找到 出 
现 的 死 锁 。 为 了 理解 这 一 点 ， 考 虑 一 个 死 锁 环 路 ， 其 中 最 后 的 事务 WW 开始 等 待 并 且 闭 合 该 环 路 。 当 W 
开始 等 待 某 个 对 象 时 ， 服 务 器 发 出 一 个 探 询 消息 给 更 正在 等 待 的 对 象 的 服务 器 。 探 询 消息 的 接收 者 扩 
展 这 个 消息 并 将 这 个 消息 转发 到 它们 发 现 的 所 有 等 待 事务 请 求 的 对 象 所 在 的 服务 器 。 因 此 所 有 W 直接 
或 者 间接 等 待 的 事务 将 最 终 加 到 探 询 消 息 中 ， 除 非 检测 出 死 锁 。 当 死 锁 出 现 后 ， 丈 就 间接 地 在 等 待 自 
己 。 这 样 ， 探 询 消息 将 返回 到 WHA KYK. 

看 起 来 ， 为 了 检测 出 死 锁 ， 需 要 发 送 大 量 的 消息 。 在 上 面 的 例子 中 ， 我 们 看 到 ， 为 了 检测 出 3 个 
事务 的 死 锁 需要 发 送 两 个 探 询 消息 ， 而 每 个 探 询 消息 通常 需要 两 个 消息 〈 从 对 象 发 送 到 协调 者 ， 再 由 
协调 者 发 送 到 对 象 ) 。 

如 果 一 个 死 锁 涉及 NN 个 事务 ， 那么 检测 该 死 锁 的 探 询 消息 需要 被 (N -1) 个 事务 协调 者 转发 ， 并 
且 经 过 (N-1) 个 对 象 的 服务 器 ， 因 此 最 终 需 要 2(N -1) 个 消息 。 幸 运 的 是 ， 绝 大 多 数 死 锁 只 涉及 
两 个 事务 ， 因 此 不 用 考虑 过 量 的 消息 。 这 个 结论 来 源 于 数据 库 领域 的 研究 。 它 也 可 扩展 到 考虑 对 象 冲 
突 访问 的 概率 问题 上 ， 参见 [Bernstein et al. 1987] 。 

事务 优先 级 在 上 面 的 算法 中 ， 死 锁 涉 及 的 每 个 事务 都 可 能 发 起 死 锁 检 测 。 环 路 上 的 多 个 事务 同 
时 发 起 死 锁 检测 会 造成 死 锁 检测 在 多 个 服务 器 上 被 执行 ， 会 使 得 多 个 事务 被 放弃 。 

在 图 17-16a H, HEFT U, VAW, 事务 【正在 等 待 事务 下 ,VV 正在 等 待 T7。 几 乎 在 同一 时 
刻 ，7 请 求 忆 拥有 的 对 象 ， 丈 请求 了 拥有 的 对 象 。 两 个 独立 的 探 询 消息 < TOU > 和 < WV > 由 这 些 对 
象 的 服务 器 同时 发 起 和 转发 ， 最 终 由 两 个 不 同 的 服务 器 检测 出 死 锁 。 在 图 17- 16b 中 ， 等 待 环 路 是 
<T=>U>W>V>T > ,在 图 17-16c 中 ， 等 待 环 路 是 < WV TU >, 

为 了 保证 环 路 中 只 有 一 个 事务 被 放弃 ， 应 给 每 个 事务 都 附加 一 个 优先 级 ， 这 样 事务 之 间 就 建立 了 
一 个 全 序 关系 。 例 如 ， 时 间 戳 就 可 以 作为 事务 的 优先 级 。 当 检测 出 死 锁 环 路 后 ， 具 有 最 低 优先 级 的 事 
务 被 放弃 。 这 样 尽管 若 于 个 不 同 的 服务 器 同时 检测 出 死 锁 环 路 ， 它 们 仍然 可 以 就 放弃 哪 一 个 事务 达成 
一 致 的 决定 。 我 们 用 T > U 表示 7 的 优先 级 高 于 。 在 上 面 的 例子 中 ,假设 7> 5 >Y> 克 ,那么 不 管 检 
测 到 环 路 < T>U>W>V>T > KEA < WVTI >, 事务 WW 都 将 被 放弃 。 

如 果 要 求 死 锁 检测 只 有 在 高 优先 级 的 事务 等 待 低 优先 级 事务 时 才能 发 起 ， 那 么 事务 优先 级 也 可 以 
用 来 减少 发 起 死 锁 检测 的 次 数 。 在 图 17-16 的 例子 中 ， 由 于 了 > 57， 因此 发 生 探 询 消 息 < 7 一 '7> ， 而 由 
于 下 <V， 因 此 不 能 发 出 探 询 消息 < WW->V > 。 如 果 我 们 假设 事务 开始 等 待 另 一 个 事务 时 ， 等 待 事务 的 
优先 级 比 被 等 待 事务 的 优先 级 高 或 低 的 概率 相同 ， 那 么 利用 上 面 的 死 锁 检 测 发 起 规则 ， 可 以 减少 一 半 
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探 询 消息 。 
等 待 F ‘yt 
ra p” i N 
D ~ 

V U V © 

es j 

W 等 待 会 
等 待 
W 

a) 初始 状态 b) 在 由 7 请 求 的 对 象 上 发 起 的 检测 结果 0 在 由 少 请 求 的 对 象 上 发 起 的 检测 结果 


图 17-16 同时 发 起 两 个 探 询 消息 


事务 优先 级 还 可 以 用 来 减少 探 询 消息 转发 的 次 数 。 一 般 的 想法 是 探 询 消息 只 能 “向 下 ”传递 ， 即 
从 高 优先 级 的 事务 到 低 优先 级 的 事务 。 为 了 达到 这 一 目的 ， 服 务 器 不 会 将 探 询 消息 转发 到 比 发 起 者 优 
先 级 还 高 的 事务 。 这 是 由 于 如 果 目 标 事务 正在 等 待 另 一 个 事务 ， 那 么 它 在 开始 等 待 时 一 定 已 经 通过 发 
送 探 询 消息 而 发 起 了 死 锁 检测 。 

然而 ， 这 种 明显 的 改进 存在 一 个 缺陷 。 在 图 17-15 的 例子 中 ， 当 事务 WHS UN, 事务 U 正 
在 等 待 事务 Y， 事 务 了 正在 等 待 W。 如 果 不 使 用 优先 级 规则 ， 在 下 开始 等 待 时 发 起 死 锁 检测 ， 探 询 消 
BA<WoU>; 如 果 使 用 优先 级 规则 ， 因 为 <U， 所 以 不 发 出 探 询 消息 ， 死 锁 就 不 能 检测 出 来 。 

这 里 的 问题 是 由 事务 开始 等 待 的 次 序 决定 死 锁 是 否 被 检测 出 来 。 为 避免 上 面 的 缺陷 ， 协 调 者 可 以 
将 所 有 收 到 的 代表 每 一 事务 的 探 询 消息 存储 在 探 询 队列 (probe queue) 中 。 当 事务 开始 等 待 一 个 对 象 
时 ， 它 将 探 询 消息 转发 到 对 象 所 在 的 服务 器 ， 由 它 将 探 询 消息 向 下 传递 。 

在 图 17-15 的 例子 中 ， 当 忆 开 始 等 待 了 时 ，7 的 协调 者 将 保存 探 询 消息 < [一 了 7> ， 见 图 17-17a。 
接着 ， 当 了 开始 等 待 丈 时 ， 轴 的 协调 者 将 保存 < T 一 肥 > ， 并 且 了 将 它 的 探 询 队列 < [一 了 > B&W, 
在 图 17-17b F, WHORLS < U>V >M < [一 到 > 。 当 丈 开 始 等 待 4 时 ， 它 就 转发 它 的 探 询 队 
列 < UVW > RA 的 服务 器 ， 该 服务 器 发 现 新 的 依赖 W 一 已， 并 将 它 和 已 收 到 的 信息 合并 ,发 现 [一 
Vy 一 WU。 从 而 将 死 锁 检 测 出 来 。 


wW W UV 探 询 
等 待 C [一 有 消息 队列 
y A 
总 
探 询 消息 队列 一 天 UV 
a) 在 C 开 始 等 待 时 7 存储 探 询 消息 bO 7 开始 等 待 时 探 询 消息 被 转发 


图 17-17 探 询 消息 向 下 传递 


当 一 个 算法 要 求 将 探 询 消息 存储 在 探 询 队列 中 时 ， 同 时 要 求 将 探 询 消息 传递 到 新 的 服务 器 并 且 丢 
弃 已 提交 或 已 放弃 时 事务 的 探 询 消息 。 如 果 相 关 的 探 询 消息 被 丢弃 ， 某 些 死 锁 就 有 可 能 不 被 发 现 ; A 
一 方面 ， 如 果 过 期 的 探 询 仍然 保留 ， 就 可 能 检测 出 假死 锁 。 这 样 边 追 逐 算 法 会 变 得 很 复杂 。 对 算法 的 
细节 有 兴趣 的 读者 可 参见 【Sinha and Natarajan 1985] 和 [Choudhary et al. 1989] ， 其 中 给 出 了 使 用 排他 
锁 的 算法 。Choudhary 等 人 指出 ，Sinha 和 Natarajan 的 算法 是 不 正确 的 ， 该 算法 不 能 检测 出 所 有 的 死 锁 ， 
还 会 发 现 一 些 假死 锁 。Choudhary 等 人 的 算法 仍然 存在 这 些 问 题 ， [ Kshemkalyani and Singhal 1991] 又 
EIET Choudhary 等 人 的 算法 〈 该 算法 不 能 检测 出 所 有 的 死 锁 ， 而 且 可 能 报告 假死 锁 ) ， 并 且 提 供 了 一 
个 更 正 后 算法 的 正确 性 证 明 。 在 随后 的 一 些 文献 中 ，[ Kshemkalyani and Singhal 1994] 指出 ， 由 于 分 布 
式 系 统 中 不 存在 全 局 状态 或 时 间 ， 因 此 理解 分 布 式 死 锁 有 一 定 的 困难 。 事 实 上 ， 任 何 一 个 收集 到 的 环 
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路 所 记录 的 信息 来 自 不 同 的 时 间 。 另 外 ， 在 死 锁 发 生 时 ， 结 点 可 能 得 到 信息 ， 但 是 这 些 结 点 得 到 死 锁 
被 解除 的 信息 的 时 间 却 会 被 延迟 。 该 文献 利用 在 不 同 场地 的 事件 之 间 的 因果 关系 ， 描 述 了 一 种 在 分 布 
式 共 享 内 存 中 的 分 布 式 死 锁 。 


17.6 事务 恢复 


事务 的 原子 性 要 求 所 有 已 提交 事务 的 效果 反映 在 事务 所 访问 的 对 象 中 ， 而 这 些 对 象 不 呈现 所 有 未 
提交 或 放弃 事务 的 效果 。 这 个 特性 可 以 从 两 方面 加 以 描述 : 持久 性 和 故障 原子 性 。 持 久 性 要 求 对 象 被 
保存 在 持久 性 存储 中 并 且 一 直 可 用 。 因 此 ， 如 果 客 户 提交 请 求 得 到 确认 ,那么 事务 的 所 有 影响 就 被 记 
录 到 持久 存储 和 服务 器 (的 挥发 性 ) 对 象 中 。 故 障 原子 性 要 求 即使 在 服务 器 出 现 故 障 时 ， 事 务 的 更 新 
作用 也 是 原子 的 。 事 务 恢复 就 是 保证 服务 器 上 对 象 的 持久 性 并 保证 服务 提供 故障 原子 性 。 

虽然 文件 服务 器 和 数据 库 服务 器 将 数据 保持 在 持久 性 存储 中 ， 但 其 他 类 型 的 服务 器 上 的 可 恢复 对 
象 不 必 如 此 保存 ， 除 非 是 为 了 恢复 。 本 章 假设 在 服务 器 运行 时 ， 它 的 所 有 对 象 都 存放 在 挥发 性 存储 中 ， 
而 提交 后 的 对 象 保存 在 一 个 或 多 个 恢复 文件 (recovery file) 中 。 这 样 ， 事 务 恢复 过 程 实际 上 就 是 根据 
持久 存储 中 最 后 提交 的 对 象 版 本 来 恢复 服务 器 中 对 象 的 值 。 由 于 数据 库 需 要 处 理 大 量 数据 ， 它 们 通常 
将 对 象 保存 在 磁盘 的 稳定 存储 中 ， 而 在 挥发 性 内 存 中 维护 一 个 缓存 。 

持久 性 要 求 和 故障 原子 性 要 求 两 者 并 非 完 全 独立 ， 它 们 可 以 利用 统一 的 机 制 来 解决 ， 即 利用 恢复 
管理 器 (recovery manager) 。 恢 复 管理 器 的 任务 是 : 

。 对 已 提交 事务 ， 将 它们 的 对 象 保存 在 持久 存储 (在 一 个 恢复 文件 ) Ho 

。 服务 器 崩溃 后 恢复 服务 器 上 的 对 象 。 

。 重新 组 织 恢复 文件 以 提高 恢复 的 性 能 。 

。 回收 (恢复 文件 中 的 ) 存储 空间 。 

在 某 些 情况 下 ， 恢 复 管理 器 应 能 够 应 对 介质 故障 。 所 谓 介质 故障 是 指 ， 由 于 软件 崩溃 、 持 久 存 储 
老化 或 持久 存储 故障 ， 造 成 恢复 文件 故障 ， 以 至 于 磁盘 数据 丢失 。 此 时 ， 我 们 需要 恢复 文件 的 另 一 个 
拷贝 。 当 然 ， 这 也 可 以 在 稳定 存储 中 实现 ， 如 利用 位 于 不 同 场地 的 镜像 磁盘 或 异地 副本 ， 使 持久 存储 
不 太 可 能 出 现 故 障 。 

意图 列表 ”每 一 个 提供 事务 支持 的 服务 器 都 需要 记录 被 客户 事务 访问 的 对 象 。 第 16 章 提 到 ， 当 客 
户 创建 一 个 事务 时 ， 与 之 联系 的 服务 器 首先 提供 一 个 新 的 事务 标识 符 ， 并 返回 给 客户 。 此 后 的 每 个 客 
户 操作 ， 包 括 最 后 的 提交 (commit) 和 放弃 (abort) 操作 ， 都 要 将 这 个 事务 标识 符 作 为 一 个 参数 传 
递 。 在 事务 的 进行 过 程 中 ， 所 有 的 更 新 操作 都 是 针对 该 事务 私有 的 临时 版 本 对 象 集 进行 。 

在 每 个 服务 器 上 上 ， 意 图 列表 (intention list) 用 来 记录 该 服务 器 上 的 所 有 活动 事务 ， 每 个 事务 的 意 
图 列表 都 记录 了 该 事务 修改 的 对 象 的 值 和 引用 列表 。 当 事务 提交 时 ， 它 的 意图 列表 用 来 确定 所 有 受 影 
响 的 对 象 ， 然 后 事务 将 用 对 象 的 临时 版 本 替换 成 对 象 的 提交 版 本 ， 并 将 对 象 的 新 值 写 人 服务 器 的 恢复 
文件 中 。 当 事务 放弃 时 ， 服 务 器 利用 意图 列表 来 删除 该 事务 形成 的 对 象 的 所 有 临时 版 本 。 

前 面 介 绍 过 ， 分 布 式 事务 在 提交 和 放弃 时 必须 执行 一 个 原子 提交 协议 。 我 们 讨论 的 恢复 基于 两 阶 
段 提交 协议 : 首先 所 有 的 参与 者 投票 表决 是 否 准备 提交 ; 如 果 都 准备 好 提交 ,那么 它们 统一 执行 真正 
的 提交 动作 。 如 果 有 参与 者 不 同意 提交 ， 那 么 该 事务 必须 放弃 。 

一 旦 某 个 参与 者 表示 已 准备 好 提交 ， 那 么 它 的 恢复 管理 器 必须 将 意图 列表 和 列表 中 的 对 象 都 保存 
到 恢复 文件 中 ， 此 后 不 管 中 途 是 否 出 现 崩 溃 故 障 ， 它 总 能 完成 提交 动作 。 

如 果 分 布 式 事务 中 的 所 有 参与 者 一 致 同意 提交 ， 那 么 协调 者 将 向 所 有 的 参与 者 发 送 提交 命令 并 通 
知客 户 。 当 客户 得 知事 务 已 被 提交 时 ， 参 与 者 服务 器 的 恢复 文件 必须 保存 足够 的 信息 。 这 样 即使 服务 
器 在 准备 好 提交 和 提交 之 间 出 现 崩 省 故障 ， 也 能 保证 事务 最 终 完 成 提交 。 

恢复 文件 中 的 条 目 ” 为 了 处 理 分 布 式 事务 所 涉及 的 服务 器 的 恢复 问题 ， 除 了 保存 对 象 值 外 ， 还 需 
在 恢复 文件 中 保存 其 他 信息 。 这 些 信 息 和 事务 状态 (statu) 相关 ， 即 事务 是 处 于 “已 提交 ” (commi- 
ted), “EAA” (aborted) 还 是 “准备 好 ”(Prepared) 状态 。 另 外 ， 恢 复 文件 中 的 每 一 个 对 象 都 通过 
意图 列表 和 某 个 事务 联系 在 一 起 。 图 17-18 列 出 了 恢复 文件 中 的 记录 类 型 。 
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某 个 对 象 的 值 

事务 状态 事务 标识 符 ， 事 务 的 状态 (准备 好 、 已 提交 、 已 放弃 ) 和 其 他 用 于 
两 阶段 提交 协议 的 状态 

意图 列表 事务 标识 符 和 一 系列 意图 记录 ， 每 个 意图 记录 由 < 对 象 标识 >、< 对 
象 值 在 恢复 文件 中 的 位 置 > 组 成 











图 17-18 恢复 文件 中 的 记录 类 型 


两 阶段 提交 协议 中 的 事务 状态 值 将 在 17. 6. 4 节 讨 论 。 下 面 将 介绍 恢复 文件 的 两 种 常用 方法 : 日 志 
方法 和 影子 版 本 方法 。 


17.6.1 日 志 


在 日 志 技术 中 ， 恢 复 文件 包含 该 服务 器 执行 的 所 有 事务 的 历史 。 该 历史 由 对 象 值 、 事 务 状 态 和 意 
图 列表 组 成 。 日 志 中 的 次 序 反 映 了 服务 器 上 事务 准备 好 、 已 提交 或 已 放弃 的 顺序 。 实 际 上 ， 恢复 文件 
将 包含 服务 器 上 所 有 对 象 的 值 的 一 个 最 近 快照 ， 随 后 存放 该 快照 后 的 事务 历史 。 

在 服务 器 的 正常 操作 过 程 中 ， 当 事务 处 于 准备 提交 、 提 交 或 放弃 状态 时 ， 恢 复 管理 器 就 被 调用 。 
当 服务 器 准备 提交 某 个 事务 时 ， 恢 复 管 理 器 将 所 有 意图 列表 中 的 对 象 追加 到 恢复 文件 中 ， 后 面 是 事务 
的 当前 状态 (准备 好 ) 和 意图 列表 。 当 该 事务 最 终 提交 或 放弃 时 ,恢复 管理 器 将 事务 相应 的 状态 追加 
到 恢复 文件 。 

我 们 假定 恢复 文件 的 追加 操作 是 原子 的 ， 即 它 总 是 写 人 完整 的 内 容 。 如 果 服 务 器 月 溃 ， 那 么 只 有 
最 后 一 次 写 操作 可 能 不 完整 。 为 了 有 效 利 用 磁盘 ， 可 以 将 几 次 连续 的 写 操作 缓冲 起 来 ， 然 后 通过 一 次 
操作 写 入 恢复 文件 。 日 志 技 术 的 另 一 个 优点 就 是 顺序 写 盘 操作 要 比 随 机 写 盘 操作 的 速度 快 。 

所 有 未 提交 的 事务 在 崩溃 后 全 部 放弃 。 因 此 ， 当 事务 提交 时 ， 它 的 “提交 ”状态 应 强制 (forced) 
写 人 日 志文 件 ， 即 连同 其 他 缓冲 的 内 容 一 并 写 人 日 志 。 

恢复 管理 器 给 每 个 对 象 附 上 唯一 的 标识 符 ， 这 样 在 恢复 文件 中 ， 对 象 的 不 同 版 本 可 以 与 服务 器 上 的 
对 象 联系 起 来 。 例 如 ， 远 程 对 象 引用 的 持久 形式 〈 例 如 CORBA 的 持久 引用 ) 就 可 以 作为 对 象 标识 符 。 

图 17-19 表示 了 图 16-7 的 银行 业务 中 事务 T 和 U 的 日 志 机 制 。 日 志文 件 被 重新 组 织 后 ， 双 线 左 边 
MAA Bares TAU 开始 前 对 象 4、B 和 C 的 值 。 本 图 直接 利用 4、B 和 C 作为 对 象 标识 符 。 双 线 右 
边 的 内 容 表 示 事 务 了 已 提交 而 事务 U 准备 好 但 未 提交 的 状态 。 在 事务 了 准备 提交 时 ， 对象 4 和 8B 的 值 
分 别 写 到 日 志 位 置 P, MP, 处 ， 紧 接着 “已 准备 好 ”状态 和 意图 列表 ( <4，P, > ，<B，P, > ) 也 被 
写 人 日 志 。 当 了 提交 时 ， 它 的 提交 状态 被 写 入 位置 P, 处 。 然 后 ,在 事务 准备 提交 时 ,对 象 C 和 8B 
的 值 被 分 别 写 人 位 置 P; 和 P 处 ,“ 已 准备 好 ”事务 状态 和 意图 列表 (<C, P>, <B, P>) 也 被 
BAA. 
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图 17-19 银行 服务 例子 的 日 志 


在 恢复 文件 中 ， 每 个 事务 状态 记录 都 包含 一 个 指针 ， 指 向 恢复 文件 中 前 一 个 事务 状态 记录 的 位 置 。 
这 样 ， 恢 复 管理 器 可 根据 这 个 指针 逆向 读 取 某 个 事务 的 所 有 事务 状态 值 。 事 务 状态 记录 序列 的 最 后 一 
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个 指针 指向 检查 点 。 

对 象 的 恢复 ” 当 服 务 器 因 导 省 而 被 替换 后 ， 它 首先 将 对 象 置 为 默认 的 初始 值 ， 然 后 将 控制 转 给 恢 
复 管理 器 。 恢 复 管理 器 的 任务 是 恢复 所 有 对 象 的 值 ， 使 这 些 值 反映 按 正 确 次 序 执行 的 所 有 已 提交 事务 
的 效果 ， 而 不 包含 任何 未 完成 或 放弃 的 事务 的 效果 。 

有 关 事 务 最 新 的 信息 在 日 志 的 尾部 。 根 据 恢复 文件 来 恢复 数据 有 两 种 方法 。 第 一 种 方法 是 ， 恢 复 
管理 器 将 对 象 的 值 恢复 到 最 近 一 次 检查 点 时 的 值 ， 接 着 读 取 每 一 个 对 象 的 值 ， 将 它们 与 意图 列表 相关 
联 ， 同 时 对 所 有 已 提交 事务 更 新 对 象 值 。 这 种 方法 按 事 务 的 执行 次 序 来 更 新 对 象 值 ， 由 于 检查 点 离 日 
志 尾 部 可 能 很 远 ， 因 此 和 需要 读 取 大 量 的 日 志 记 录 。 第 二 种 方法 是 ， 恢 复 管理 器 通过 逆向 读 取 恢复 文件 
来 恢复 服务 器 的 对 象 值 。 恢 复 文件 中 有 一 个 向 后 指针 从 一 个 事务 状态 指向 下 一 个 事务 状态 。 恢 复 管理 
器 用 具有 已 提交 状态 的 事务 来 恢复 还 没有 被 恢复 的 对 象 ， 直 到 它 恢 复 了 所 有 服务 器 上 的 对 象 为 止 。 这 
种 方式 的 优点 是 每 个 对 象 只 需 恢 复 一 次 。 

为 了 恢复 事务 的 效果 ， 恢 复 管 理 器 从 恢复 文件 中 读 取 相应 的 意图 列表 。 列 表 包 含 了 所 有 更 新 对 象 


的 标识 符 和 更 新 后 对 象 值 的 在 恢复 文件 中 的 位 置 。 


以 图 17-19 为 例 ， 如 果 服 务 器 月 溃 后 日 志文 件 的 内 容 如 图 所 示 时 ， 它 的 恢复 管理 器 将 按 如 下 步 怠 进 
行 恢复 处 理 。 首 先 它 读 取 日 志文 件 的 最 后 一 个 记录 (在 P, 处 ) ， 从 而 得 知事 务 U 尚未 提交 ， 它 的 更 新 应 
全 部 撤销 。 接 着 ， 它 读 取 前 一 个 事务 状态 记录 (在 P, 处 ) ,得 知事 务 了 已 提交 。 为 了 恢复 事务 7 的 更 
新 ,恢复 管理 器 读 取 在 P, 处 的 前 一 个 事务 状态 记录 ， 获 取 了 的 意图 列表 (<A, P>, <B, P>), 从 
而 读 取 P, FP, 处 的 记录 来 恢复 4 AB 的 值 。 此 时 ， 还 未 恢复 对 象 C 的 值 ， 它 移 回 到 检查 点 忆 处 ， 恢 复 
C 的 值 。 

为 了 有 助 于 后 继 的 恢复 文件 重组 ， 恢 复 管理 器 在 以 上 过 程 中 记录 了 所 有 准备 提交 的 事务 。 对 于 每 
个 准备 好 提交 的 事务 ， 它 在 恢复 文件 中 追加 一 个 放弃 事务 状态 记录 。 这 样 可 以 保证 每 个 事务 总 是 处 于 
已 提交 或 已 放弃 状态 。 

服务 器 在 恢复 过 程 中 仍然 可 能 发 生 故 障 ， 因 此 有 必要 保证 恢复 过 程 是 短 等 的 ， 即 可 以 重复 进行 多 
次 而 保证 执行 效果 不 变 。 由 于 我 们 假设 所 有 的 对 象 都 存储 在 可 变 内 存 中 ， 因 此 恢复 过 程 自 然 是 可 重复 
的 。 但 在 数据 库 系 统 中 ， 由 于 数据 保存 在 持久 存储 中 ， 可 变 内 存 中 只 有 一 个 缓存 ， 因 此 在 服务 器 贿 泪 
后 被 替换 时 ， 持 久 存 储 中 的 有 些 对 象 可 能 已 经 过 期 。 这 样 ， 它 的 恢复 管理 器 必须 恢复 这 些 持久 存储 中 
的 对 象 。 如 果 它 在 恢复 过 程 中 又 崩溃 ， 部 分 已 恢复 的 对 象 可 能 还 在 那里 ， 这 使 达到 兰 等 效果 的 难度 稍 
微 大 一 些 。 

恢复 文件 的 重组 ”恢复 管理 器 为 了 使 恢复 过 程 执行 得 更 快 或 为 了 节省 存储 空间 ， 它 有 时 需要 重组 
恢复 文件 。 如 果 恢 复 文件 一 直 不 重组 ， 那 么 恢复 过 程 必须 逆向 搜索 整个 恢复 文件 ， 直 到 找到 所 有 对 象 
的 值 为 止 。 从 概念 上 说 ,恢复 过 程 需要 的 信息 只 需 包 含 所 有 对 象 的 提交 后 版 本 的 拷贝 ， 这 是 恢复 文件 
最 简洁 的 形式 。 检 查 点 过 程 (checkpointing) 是 将 当前 所 有 已 提交 的 对 象 的 值 写 人 一 个 新 恢复 文件 的 过 
程 ， 同 时 还 需 写 人 的 信息 包括 事务 的 状态 记录 和 尚未 完全 提交 的 事务 的 意图 列表 (包括 两 阶段 提交 协 
议 相 关 的 信息 )。 术 语 检 查 点 (checkpoint) 指 由 该 过 程 存 储 的 信息 。 设 置 检查 点 的 目的 是 减少 恢复 过 
程 中 需要 处 理 的 事务 数目 和 回收 文件 空间 。 

检查 点 过 程 可 以 在 恢复 过 程 结束 后 新 事务 开始 之 前 进行 。 但 是 ， 恢 复 过 程 并 不 经 常 发 生 。 在 服务 
器 正常 处 理 过 程 中 需要 不 时 进行 检查 点 过 程 。 检 查 点 被 写 人 另 一 个 新 的 恢复 文件 ， 在 检查 点 写 人 完毕 
之 前 ， 当 前 恢复 文件 将 不 再 使 用 。 在 检查 点 过 程 开 始 时 ， 首 先 在 恢复 文件 中 做 一 个 标记 ， 然 后 将 服务 
器 的 对 象 写 人 新 的 恢复 文件 ， 接 着 进行 拷贝 : 1) 标记 点 前 与 未 完成 事务 有 关 的 内 容 ; 2) 标记 点 后 的 
所 有 内 容 到 这 个 新 的 文件 中 。 当 检查 点 完成 时 ， 这 个 新 文件 可 用 于 以 后 的 操作 。 

恢复 管理 器 通过 丢弃 有 旧 的 恢复 文件 来 减少 磁盘 空间 。 当 恢复 管理 器 执行 恢复 过 程 时 ， 可 能 遇 到 恢 
复 文 件 中 的 检查 点 。 一 旦 遇 到 检查 点 ， 它 就 立即 根据 检查 点 中 的 对 象 值 来 恢复 对 象 。 


17. 6.2 影子 版 本 
日 志 技 术 将 事务 状态 信息 、 意 图 列表 和 对 象 记录 在 同一 个 文件 (即日 志 ) 中 。 影 子 版 本 (shadow 
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version) 是 男 一 种 恢复 文件 的 组 织 方式 。 它 利用 一 个 映射 来 定位 在 版 本 存储 文件 中 的 某 个 对 象 版 本 。 
这 个 映射 将 对 象 标识 符 和 对 象 当前 版 本 在 版 本 存储 (version store) 中 的 位 置 对 应 起 来 。 每 个 事务 写 人 
的 版 本 均 是 前 面 提交 版 本 的 影子 版 本 。 当 使 用 影子 版 本 方式 的 恢复 处 理 时 ， 事 务 状态 和 意图 列表 被 分 
别 对 待 。 下 面 首先 介绍 对 象 的 影子 版 本 。 

当 事 务 准备 提交 时 ， 该 事务 更 新 的 所 有 对 象 被 追加 到 版 本 存储 中 ， 并 保留 对 象 的 相应 的 已 提交 
版 本 不 变 。 对 象 的 这 个 新 的 临时 版 本 被 称 为 影子 (shadow) 版 本 。 当 事务 提交 时 ， 系 统 从 旧 映 射 表 
复制 一 个 新 的 映射 表 并 在 其 中 输入 影子 版 本 的 位 置 。 接 着 ， 用 这 个 新 映射 表 替 换 旧 映射 表 即 完成 提 
交 过 程 。 

当 服 务 器 因 凯 省 而 被 替换 时 ， 要 恢复 对 象 ， 由 恢复 管理 器 读 取 映射 ， 并 使 用 映射 中 的 信息 来 定位 
版 本 存储 中 的 对 象 。 

图 17-20 表示 了 事务 了 和 0 使 用 影子 版 本 时 的 情况 。 表 的 第 一 列表 示 事务 7 了 和 U 运 行 之 前 的 映射 ， 
这 时 账户 4、B 和 C 的 余额 分 别 是 $100、$200 
和 $300。 表 的 第 二 列表 示 事 务 了 提交 后 的 映射 。 


事务 开始 时 的 映射 事务 提交 后 的 映射 


A>P, 


版 本 存储 包含 一 个 检查 点 ， 接 着 是 事务 了 更 , BoP, 
新 的 对 象 4 和 B 的 版 本 ,分 别 位 于 P, 和 P, 处 。 4 CoP! 
它 也 包含 事务 UU 更 新 的 对 象 B 和 C 的 影子 版 本 ， ; P P, P, P, 
分 别 在 P, 和 P, Rb 100 200 300 80 220 278 242 
映射 必须 保存 在 一 个 已 知 的 位 置 ， 例 如 版 本 检查 点 
存储 的 开始 处 或 者 一 个 独立 的 文件 中 , 这 样 当 系 图 17-20 影子 版 本 
统 需 要 进行 恢复 时 总 能 找到 它 。 


事务 提交 时 从 旧 映 射 到 新 映射 的 切换 必须 用 一 个 原子 步骤 完成 。 为 了 保证 这 一 点 ， 必 须 将 映射 放 
在 持久 存储 中 ， 这 样 即使 写 文件 操作 失败 后 仍然 能 保留 有 效 的 映射 。 在 恢复 过 程 中 ， 由 于 影子 版 本 方 
式 在 映射 中 记录 了 所 有 对 象 的 最 新 提交 版 本 ， 因 此 它 比 日 志 具 有 更 好 的 性 能 。 但 在 系统 的 正常 操作 过 
程 中 ,日 志 操作 应 该 更 快 ， 这 是 因为 日 志 操作 只 需 向 同一 个 文件 追加 日 志 记录 ， 而 影子 版 本 需要 额外 
的 相对 稳定 存储 〈 涉 及 不 相关 磁盘 块 ) 的 写 操作 。 

影子 版 本 对 于 处 理 分 布 式 事务 的 服务 器 而 言 还 是 不 够 的 。 事 务 状态 和 意图 列表 被 记录 在 事务 状态 
文件 (transaction status file) 中 。 每 个 意图 列表 代表 某 个 事务 提交 后 会 改变 的 部 分 映射 。 事 务 状态 文件 
可 能 组 织 成 日 志 。 

下 图 给 出 了 银行 例子 所 使 用 的 映射 和 事务 状态 文件 ， 这 时 ， 事 务 了 已 经 提交 ， 而 事务 0U 正 准 备 
提交 。 


事务 状态 文件 (持久 存储 ) 











在 提交 状态 写 人 事务 状态 文件 和 上 映射 被 更 新 之 间 的 这 段 时 间 内 ， 服 务 器 有 可 能 崩 沉 ， 此 时 ， 客 户 
不 会 得 到 通知 。 在 服务 器 崩 泪 后 被 蔡 换 的 时 候 ， 恢 复 管理 器 必须 允许 出 现 这 种 可 能 性 。 遇 到 这 种 情况 ， 
可 以 检查 映射 是 否 包 含 了 在 事务 状态 文件 中 最 后 提交 事务 的 效果 。 如 果 没 有 ， 那 么 这 个 事务 就 应 该 标 
记 成 已 放弃 。 


17.6.3 为 何 恢复 文件 需要 事务 状态 和 意图 列表 

设计 不 包含 事务 状态 信息 和 意图 列表 的 简单 恢复 文件 是 可 能 的 ， 这 种 恢复 文件 适用 于 单 服务 器 上 
的 事务 。 但 对 于 参与 分 布 事务 处 理 的 服务 器 来 说 ， 事 务 状态 信息 和 意图 列表 是 非常 必要 的 。 而 且 ， 对 
于 非 分 布 式 事务 的 服务 器 ， 这 种 方法 也 是 有 益 的 ， 其 原因 有 以 下 几 点 : 
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。 一 些 恢 复 管 理 器 会 较 早 地 将 对 象 写 和 恢复 文件 一 一 假设 事务 会 正常 提交 。 

。 如 果 事务 使 用 了 很 多 大 对 象 时 ， 将 这 些 对 象 连续 地 写 人 恢复 文件 会 使 服务 器 设计 更 加 复杂 。 如 
果 对 象 可 以 从 意图 列表 引用 的 话 ， 那 么 对 象 可 以 存在 恢复 文件 的 任何 地 方 。 

。 在 时 间 惟 并 发 控制 方法 中 ， 有 时 候 服 务 器 能 够 知道 事务 将 最 终 提交 并 告 之 客户 ， 此 时 对 象 必须 
写 人 恢复 文件 〈 参 见 第 16 章 ) 来 保证 持久 性 。 但 是 ， 事 务 可 能 需要 等 待 其 他 较 早 的 事务 提交 。 
在 这 种 情况 下 ， 恢 复 文件 中 相应 的 事务 状态 将 是 “等 待 提交 ”， 然 后 是 “提交 ”， 以 确保 恢复 
文件 中 已 提交 事务 的 时 间 堆 排序。 在 进行 恢复 时 ， 任 何 一 个 等 待 提交 的 事务 将 允许 提交 ， 这 是 
因为 它 等 待 的 事务 或 者 已 经 提交 ， 或 者 由 于 服务 器 故障 已 被 放弃 。 


17.6.4 两 阶段 提交 协议 的 恢复 


在 分 布 式 事务 中 ， 每 个 服务 器 维护 自己 的 恢复 文件 。 前 面 介 绍 的 恢复 管理 必须 加 以 扩展 ， 以 处 理 
服务 器 故障 时 执行 两 阶段 提交 协议 的 事务 。 这 时 恢复 管理 器 会 用 到 两 个 新 的 事务 状态 : “完成 ” 
(done) 和 “不 确定 ”(uncertain)。 图 17-6 表示 了 这 两 个 状态 的 含义 。 协 调 者 用 “已 提交 ”状态 来 标 
记 投 票 的 结果 是 Yes， 用 “完成 ”状态 表示 两 阶段 提交 协议 已 经 完成 。 参 与 者 用 “不 确定 ”状态 表示 
它 的 投票 是 Yes 但 尚未 收 到 事务 的 提交 决议 。 另 外 还 使 用 了 两 种 记录 类 型 ， 以 便 让 协调 者 需要 记录 所 
有 的 参与 者 ， 每 个 参与 者 需要 记录 协调 者 。 


记录 类 型 记录 内 容 的 描述 
协调 者 事务 标识 符 ， 参 与 者 列表 
参与 者 事务 标识 符 ， 协 调 者 


在 协议 的 第 一 阶段 ， 当 协调 者 准备 提交 时 (并且 已 经 在 恢复 文件 中 追加 了 一 个 “准备 好 ”状态 记 
录 ) ， 它 的 恢复 管理 器 在 恢复 文件 中 追加 一 个 “协调 者 ”记录 。 每 个 参与 者 在 它 投 Yes 票 之 前 ， 必 须 
已 经 处 于 准备 提交 的 状态 ， 即 在 恢复 文件 中 追加 一 个 “准备 好 ”状态 记录 。 当 它 投 Ys 票 时 ， 它 的 恢 
复 管理 器 在 恢复 文件 中 增加 一 个 参与 者 记录 ， 并 写 人 “不 确定 ”事务 状态 。 当 它 投 No 票 时 ， 则 在 恢 
复 文件 中 追加 “已 放弃 ”事务 状态 。 

在 协议 的 第 二 阶段 ， 协 调 者 的 恢复 管理 器 根据 提交 决议 ， 在 恢复 文件 中 添加 “已 提交 ”或 
“已 放弃 ”状态 。 这 必须 是 一 次 强制 写 人 ， 也 就 是 必须 立即 写 人 恢复 文件 中 。 参 与 者 的 恢复 管理 
器 根据 从 协调 者 收 到 的 消息 ， 在 恢复 文件 中 分 别 追 加 “已 提交 ”或 “已 放弃 ”状态 。 当 协调 者 收 
到 所 有 参与 者 的 确认 消息 之 后 ， 它 的 恢复 管理 器 向 恢复 文件 中 写 人 “完成 ”状态 ， 这 次 写 人 不 是 
强制 要 求 的 。 状 态 “ 完 成 ”本 身 不 是 提交 协议 的 一 部 分 ， 但 是 使 用 它 有 利于 组 织 恢复 文件 。 
图 17-21 表 示 了 用 于 事务 了 的 日 志文 件 的 内 容 ， 其 中 服务 器 在 事务 了 中 扮演 协调 者 角色 ， 在 事务 
U 中 扮演 参与 者 和 角色。 这 两 个 事务 的 最 初 状态 都 是 “准备 好 ”。 在 事务 了 中 ,“ 准 备 好 ”状态 记录 
之 后 跟着 一 个 协调 者 记录 和 一 个 “已 提交 ”状态 记录 (图 中 没有 显示 “完成 ”状态 记录 )。 在 事 
务 忆 中 ,“ 准 备 好 ”状态 记录 之 后 跟着 一 个 状态 为 “不 确定 ”的 参与 者 记录 ， 接 着 是 一 个 “已 提 
交 ” 或 “已 放弃 ”状态 记录 。 





事务 : 7 协调 者 : 7 事务 : 7 GSU 参考 者 : 事务 : U BH: U 
准备 好 参与 者 已 提交 准备 好 0 协调 不 确定 CRZ 
意图 列表 IR: … 意图 列表 - ， 





图 17-21 与 两 阶段 提交 协议 相关 的 日 志 记录 


当 服 务 器 因 崩 淡 而 被 替代 之 后 ， 恢 复 管理 器 除了 需要 恢复 对 象 之 外 ， 还 要 处 理 两 阶段 提交 协议 。 
对 任何 一 个 服务 器 扮演 协调 者 角色 的 事务 而 言 ， 恢 复 管理 器 应 当 寻 找 协调 者 记录 和 事务 状态 信息 。 对 
任何 一 个 服务 器 扮演 参与 者 角色 的 事务 ， 恢 复 管理 器 应 当 寻 找 参 与 者 记录 和 事务 状态 信息 。 在 这 两 种 
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情况 下 ， 最 新 的 事务 状态 信息 (在 日 志 的 最 后 部 分 ) 反映 了 故障 时 的 事务 状态 。 此 时 ， 恢 复 管理 器 需 
要 根据 服务 器 是 协调 者 或 参与 者 以 及 故障 时 的 状态 采取 动作 ， 如 图 17-22 所 示 。 
fi a R # . 恢复 管理 器 的 动作 
协调 者 准备 好 由 于 在 服务 器 发 生 故 障 时 尚未 做 出 任何 决定 ， 因 此 向 参与 者 列表 中 的 所 有 服 
. _ 务 器 发 送 abortTransaction 命 令 ， 并 在 恢复 文件 中 记录 一 个 已 放弃 记录 。 在 已 放 
弃 状 态 下 的 操作 也 是 这 样 。 如 果 目 前 还 没有 参与 者 列表 ， 那 么 参与 者 将 由 于 超 
时 最 终 放弃 事务 
协调 者 已 提交 在 服务 器 故障 发 生 时 已 经 做 出 决定 要 提交 事务 。 因 此 向 参与 者 列表 中 的 所 有 
参与 者 发 送 doCommit 命 令 ， 继 续 执 行 两 阶段 提交 协议 的 第 4 步 
参与 者 已 提交 参与 者 向 协调 者 发 送 haveCommitted 消 息 。 这 允许 协调 者 在 下 一 个 检查 点 处 
丢弃 该 事务 的 信息 
参与 者 不 确定 参与 者 在 获得 决议 之 前 发 生 故 障 ， 那 么 它 在 协调 者 通知 它 前 不 能 确定 事务 
的 状态 。 因 此 参与 者 将 向 协调 者 发 送 getDecision 请 求 来 询问 事务 状态 。 当 它 获 
得 回复 后 再 提交 或 放弃 事务 
参与 者 准备 好 ”参与 者 尚未 投票 ， 它 可 以 单方 面 放弃 事务 
协调 者 完成 不 需要 任何 操作 














图 17-22 ”两 阶段 提交 协议 的 恢复 


恢复 文件 的 重组 ”在 执行 检查 点 的 过 程 中 ， 需 特别 注意 不 能 将 未 完成 的 协调 者 从 恢复 文件 中 删除 ， 
这 些 信 息 必 须 在 所 有 参与 者 确认 它们 已 完成 事务 之 前 一 直 保留 。 事 务 状态 是 “已 完成 ”的 记录 可 以 被 
丢弃 。 状 态 是 “不 确定 ”的 参与 者 也 必须 保留 。 

尾 套 事务 的 恢复 ”在 最 简单 的 情况 下 ， 蔡 套 事务 的 每 个 子 事务 访问 不 同 的 对 象 集 。 在 两 阶段 提交 
协议 中 ， 当 每 个 参与 者 准备 提交 时 ， 它 将 它 的 对 象 和 意图 列表 写 人 本 地 的 恢复 文件 ， 并 且 在 这 些 记录 
上 附 上 项 层 事务 的 标识 符 。 尽 管 秘 套 事务 使 用 两 阶段 提交 协议 的 变种 ， 但 恢复 管理 器 使 用 的 事务 状态 
值 和 平面 事务 是 一 样 的 。 

但 是 ， 如 果 相 同 或 不 同 静 套 层次 上 的 子 事务 访问 了 相同 的 对 象 ， 那 么 事务 放弃 和 恢复 过 程 将 变 得 
复杂 一 些 。16. 4 节 描 述 的 加 锁 方 案 支持 父 事务 继承 子 事务 的 锁 以 及 子 事务 从 父 事务 处 获取 锁 。 这 种 加 
锁 方 案 要 求 父 事务 和 子 事务 在 不 同 的 时 刻 访 问 公 共 数 据 对 象 ， 并 确保 并 发 子 事务 对 同一 对 象 的 访问 必 
须 是 串 行 化 的 。 

根据 嵌 套 事务 规则 访问 的 对 象 由 各 子 事务 提供 临时 版 本 来 保证 其 可 恢复 性 。 艇 套 事务 的 子 事务 所 
使 用 的 对 象 的 不 同 临时 版 本 之 间 的 关系 和 锁 之 间 的 关系 类 似 。 为 了 支持 事务 放弃 时 的 恢复 ， 多 个 层次 
事务 共享 的 对 象 的 服务 器 按 栈 方式 组 织 临时 版 本 一 一 每 个 髓 套 事务 使 用 一 个 栈 。 

每 当 脱 套 事务 中 的 第 一 个 子 事务 访 问 对 象 时 ， 该 事务 获得 对 象 当前 提交 版 本 的 一 个 临时 版 本 ， 并 
且 这 个 临时 版 本 被 放置 在 栈 顶 。 但 是 除非 有 其 他 的 子 事务 访问 同一 个 对 象 ， 和 否则 这 个 楼 实际 上 不 需要 
真正 产生 。 

当 某 个 子 事 务 访问 同一 个 对 象 时 ， 它 将 复制 栈 顶 的 版 本 并 且 把 它 重新 人 楼 。 所 有 的 子 事务 更 新 都 
作用 于 栈 顶 的 临时 版 本 。 当 子 事务 临时 提交 后 ， 它 的 父 事 务 将 继承 这 个 新 版 本 。 为 了 实现 这 一 点 ， 子 
事务 的 版 本 和 父 事务 的 版 本 都 从 栈 中 丢弃 ， 而 将 子 事务 的 新 版 本 重新 放 人 栈 中 〈 实 际 上 替换 了 父 事务 
的 版 本 ) 。 当 子 事务 放弃 后 ， 它 在 栈 顶 的 版 本 被 丢弃 。 最 终 ， 当 顶层 事务 提交 时 ， 栈 顶 版 本 (如 果 有 
的 话 ) 将 成 为 新 的 提交 版 本 。 

例如 ， 在 图 17-23 中 ,假设 事务 T, Tas TA T, AT, Tr, Te, T 的 次 序 访问 同一 个 对 象 4。 
设 它们 的 临时 版 本 分 别 是 4, Ans AnA Ao HT, 开始 执行 时 ， 基 于 4 的 提交 版 本 的 A, 被 推 人 栈 。 当 
T 开始 执行 时 ， 它 基于 A, 上 的 4h 版本， 并 将 41, 推 人 栈 ; 当 它 完成 时 ， 它 替换 栈 中 父 事务 的 版 本 。 事 
Z TaM T 按 类 似 的 方式 执行 ， 最 终 T, 的 结果 被 留 在 栈 顶 。 
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17.7 小 结 


在 大 多 数 情况 下 ， 一 个 客户 发 起 的 事务 会 操作 多 个 不 同 服务 器 上 的 对 象 。 一 个 分 布 式 事务 是 指 涉 
及 多 个 不 同 服务 器 的 事务 。 在 分 布 式 事务 中 ,可 以 使 用 嵌 套 事务 结构 ， 以 便 支持 更 高 的 并 发 度 ， 并 允 
许 服务 器 独立 提交 。 

事务 的 原子 性 要 求 参 与 分 布 式 事务 的 所 有 服务 器 或 者 全 部 提交 或 者 全 部 放弃 。 原 子 提交 协议 用 于 
保证 这 一 点 ， 即 使 在 执行 过 程 中 出 现 服 务 器 般 演 的 情况 也 可 以 保证 原子 性 。 两 阶段 提交 协议 允许 任何 
一 个 服务 器 单方 面 放弃 事务 ， 它 包含 了 一 些 超时 操作 来 处 理由 于 服务 器 崩溃 造成 的 延 时 。 两 阶段 提交 
协议 不 能 保证 在 有 限 的 时 间 内 完成 ， 但 是 它 能 确保 最 终 完成 。 

分 布 式 事务 中 的 并 发 控制 是 模块 化 的 一 一 每 个 服务 器 负责 访问 它 自己 对 象 的 事务 的 串 行 化 。 但 是 
在 保证 事务 全 局 串 行 化 时 需要 额外 的 协议 。 使 用 时 间 截 排序 的 分 布 式 事务 需要 一 种 时 间 戳 排序 生成 方 
法 ， 以 便 在 多 个 服务 器 之 间 保 持 统一 的 时 间 蕉 排序 。 使 用 乐观 并 发 控制 的 事务 则 需要 一 种 全 局 验证 或 
一 种 强制 正在 提交 事务 进行 全 局 排序 的 手段 。 

利用 两 阶段 加 锁 方 式 的 分 布 式 事务 会 导致 分 布 式 死 锁 。 分 布 式 死 锁 检测 的 目的 是 在 全 局 等 待 图 中 
寻找 环 路 。 一 旦 发 现 某 个 环 路 ， 必 须 放 弃 一 个 或 者 多 个 事务 来 解除 死 锁 。 边 追逐 方法 是 一 种 非 集中 式 
分 布 式 死 锁 检测 方法 。 

基于 事务 的 应 用 通常 在 长 生命 周期 和 存储 信息 的 完整 性 方面 有 很 强 的 需求 ， 但 很 多 情况 下 它们 对 
响应 时 间 的 要 求 不 高 。 原 子 提交 协议 是 分 布 式 事务 的 关键 ,但 它们 不 能 保证 在 特定 的 时 间 限 制 内 完成 。 
事务 的 持久 性 是 通过 执行 检查 点 和 在 恢复 文件 中 记录 日 志 完 成 的 ， 当 服务 器 月 浊 后 被 新 的 进程 取代 后 ， 
检查 点 和 恢复 文件 可 用 来 进行 恢复 处 理 。 在 进行 恢复 处 理 的 过 程 中 ， 事 务 服 务 的 用 户 会 感受 到 一 些 延 
迟 。 尽 管 运行 分 布 式 事务 的 服务 器 可 能 出 现 刷 演 ， 并 且 处 于 异步 系统 中 ,但 由 于 替换 崩溃 的 服务 器 的 
进程 可 以 从 持久 存储 或 其 他 服务 器 中 获取 必要 的 信息 ， 因 此 ， 这 些 服务 器 仍然 能 够 就 事务 的 结果 达成 
共识 。 


练习 


17.1 两 阶段 提交 协议 的 一 个 非 集中 方式 的 变种 是 让 各 个 参与 者 直接 通信 ， 而 不 是 利用 协调 者 进行 间接 通 
信 。 在 第 一 阶段 ， 协 调 者 将 它 的 投票 发 送 给 所 有 的 参与 者 。 在 第 二 阶段 ， 如 果 协 调 者 投 的 是 No 票 ， 
那么 参与 者 只 是 放弃 事务 ; 如 果 投 的 是 Yes 票 ， 那 么 每 个 参与 者 将 它 的 投票 发 送 给 协调 者 和 其 他 参 
与 者 ， 它 们 各 自 根 据 收 到 的 投票 来 决定 是 否 提交 并 进行 执行 。 请 计算 这 种 协议 需要 进行 几 轮 消息 发 
送 以 及 消息 总 数 ， 并 将 它 和 集中 式 的 两 阶段 提交 协议 进行 比较 ， 列 出 其 优 缺 点 。 (第 732 页 ) 

17.2 三 阶段 提交 协议 由 以 下 步 又 组 成 
第 1 阶段 : 和 两 阶段 提交 协议 相同 。 

第 2 阶段 : 协调 者 收集 所 有 投票 并 做 出 决定 。 如 果 决 定 是 No， 那 么 它 放 弃 事 务 并 通知 所 有 投 Yes 票 
的 参与 者 ; 如 果 决 定 是 Yes， 它 向 所 有 的 参与 者 发 送 preCommit PR, BME Yes 票 的 参与 者 都 等 待 
preCommit 或 doAbort 请 求 。 接 收 到 preCommit 请 求 后 它们 会 加 以 确认 ， 收 到 doAbort 请 求 后 将 放弃 
事务 。 

第 3 阶段 : 协调 者 收集 确认 消息 。 一 旦 收集 到 所 有 的 确认 ， 它 就 提交 事务 并 且 向 参与 者 发 送 doCom- 
mit 请 求 。 每 个 参与 者 等 待 doCommit 请 求 ， 该 请 求 到 来 后 就 提交 事务 。 
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假设 通信 没有 故障 ， 请 阐述 上 面 的 协议 是 如 何 避 免 参 与 者 在 不 确定 状态 下 的 延 时 (HF MAR 
参与 者 出 现 故 障 )? (第 735 页 ) 
试 解 释 两 阶段 提交 协议 如 和 何 保证 内 套 事务 的 顶层 事务 一 旦 成 功 提交 ， 那 么 所 有 正确 的 后 代 事 务 
都 能 提交 或 放弃 。 (第 736 页 ) 
请 给 出 两 个 分 布 式 事务 的 交错 执行 在 每 个 服务 器 上 都 是 串 行 的 ， 但 是 在 全 局 上 不 是 串 行 的 例子 。 
(第 740 页 ) 
图 17-4 中 定义 的 getDecision 函数 仅 由 协调 者 提供 。 请 定义 一 个 新 的 getDecision 函数 ， 该 函数 在 
协调 者 不 可 用 时 ， 由 参与 者 提供 并 且 被 其 他 需要 获得 决议 的 参与 者 使 用 。 
假设 每 个 参与 者 都 可 以 对 其 他 参与 者 调用 getDecision 函数 ， 那 么 这 样 是 否 能 够 解决 不 确定 状态 
引起 的 延 时 问题 ? 请 解释 你 的 答案 。 为 了 支持 上 面 的 通信 ， 协 调 者 在 两 阶段 提交 协议 的 什么 时 


刻 将 所 有 参与 者 的 标识 符 通知 给 每 个 参与 者 ? (第 732 页 ) 
扩展 两 阶段 加 锁 的 定义 来 支持 分 布 式 事务 ， 解 释 为 什么 本 地 使 用 严格 的 两 阶段 加 锁 就 能 够 保证 
分 布 式 事务 的 串 行 化 ? (5% 740 页 ,第 16 章 ) 
假设 系统 使 用 严格 的 两 阶段 加 锁 方 法 ， 试 描述 两 阶段 提交 协议 和 每 个 服务 器 的 并 发 控制 之 间 的 
关系 。 分 布 式 死 锁 检 测 如 何 实 现 ? (第 732 页 ,第 740 页 ) 
一 个 服务 器 用 时 间 惟 排序 进行 本 地 并 发 控制 。 在 参与 分 布 式 事务 处 理 时 需要 做 哪些 变化 ? 在 什 
么 条 件 下 ， 两 阶段 提交 协议 可 以 不 必用 时 间 蕉 排序 。 (第 732 页 , 第 741 页 ) 


请 考虑 分 布 式 乐观 并 发 控制 ， 其 中 每 个 服务 器 在 本 地 顺序 〈 即 一 次 仅 有 一 个 事务 在 验证 和 更 新 
阶段 ) 使 用 向 后 验证 ， 请 考虑 练习 17. 4 答案 所 涉及 的 情况 。 试 描述 两 个 并 发 事务 试图 同时 提交 


时 的 所 有 可 能 情况 。 服 务 器 采用 并 行 验证 时 处 理 有 何不 同 ? (第 16 章 ,第 742 页 ) 
一 个 集中 式 全 局 死 锁 检 测 器 收集 并 合并 所 有 的 局 部 等 竺 图 。 请 给 出 一 个 例子 ， 解 释 在 死 锁 检 测 
过 程 中 ， 当 一 个 死 锁 环 路 中 的 等 竺 事务 放弃 后 ， 怎 样 检测 到 假死 锁 。 (第 745 页 ) 
考虑 无 优先 级 的 边 追 逐 算 法 ， 请 用 例子 说 明 它 可 能 检测 出 假死 锁 。 (第 746 页 ) 
一 个 服务 器 管理 对 象 a,，a, ，…，c,， 它 向 客户 提供 下 面 两 个 操作 : 


1) Read(i) 返回 对 象 a, 的 值 。 

2) Write(i, Value) 将 值 Value RAXA a,。 

事务 7、 和 VV 的 定义 如 下 : 

T: x =Read(i); Write(j, 44); 

U: Write(i, 55); Write(j, 66); 

V: Write(k, 77); Write(k, 88); 

试 描述 在 使 用 严格 两 阶段 加 锁 ， 并 且 了 在 了 之 前 访问 w Ma, 的 情况 下 ， 这 3 个 事务 写 日 志文 
件 的 情况 。 请 描述 服务 器 在 崩溃 后 被 蔡 换 时 ， 恢 复 管 理 器 如 何 利 用 日 志文 件 中 的 内 容 来 恢复 





T. 也 和 了 的 执行 效果 。 盖 述 日 志文 件 中 提交 记录 次 序 的 重要 性 。 (第 753 ~754 页 ) 
向 日 志文 件 追 加 记录 是 原子 操作 ， 但 是 追加 来 自 不 同事 务 的 记录 操作 可 能 是 相互 交错 的 。 请 并 
述 这 种 交错 对 练习 17. 12 的 答案 影响 。 (第 753 ~754 页 ) 
练习 17. 12 中 的 事务 Tr、U 和 了 使 用 严格 两 阶段 加 锁 ， 进 行 的 交错 操作 如 下 : 
T U y 
x = Read (i) ; Write(k, 77); 
Write(i, 55) 
Write(j, 44) 


Write(k, 88) 
Write(j, 66) 


假设 恢复 管理 器 在 每 次 写 操 作 后 就 立即 将 记录 写 到 日 志文 件 中 而 不 是 等 到 事务 结束 后 再 写 入 )， 
试 描述 日 志文 件 中 有 关 T、U 和 VV 的 日 志 记 录 的 信息 。 这 种 立即 写 日 志 的 方法 是 否 会 影响 恢复 过 程 
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17. 16 


17.17 
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的 正确 性 ? 这 种 方法 的 优 缺 点 如 何 ? (第 753 ~754 T) 
BS TAU 的 并 发 控制 利用 时 间 玲 方法 ,事务 U 的 时 间 戳 晚 于 事务 7， 因 此 必须 等 待 了 提交 。 试 描 
述 写 入 日 志文 件 中 的 有 关 事 务 T 和 0 的 信息 。 解 释 为 什么 日 志文 件 中 的 提交 记录 必须 按时 间 玲 顺 
序 排列 ? 考虑 下 面 两 种 情况 下 服务 器 如 何 恢复 : (1) 在 两 个 事务 提交 之 间 服 务 器 月 汝 ; (2) 服务 
器 在 两 个 事务 提交 后 月 演 。 





T V 

%= Read (i); 
Write (i, 55); 
Write (j, 66); 

Write (j, 44); 
Commit 

Commit 

Ee BT B'S RA o (38 757 页 ) 


练习 17. 15 中 的 事务 了 和 忆 采 用 乐观 并 发 控制 ， 并 使 用 向 后 验证 ， 验 证 失败 时 重新 运行 事务 。 请 描 
述 写 人 日 志文 件 中 的 这 两 个 事务 的 信息 ,解释 为 什么 日 志文 件 中 的 提交 记录 必须 按 事务 号 排列 ? 
在 日 志文 件 中 的 已 提交 事务 的 写 集合 是 怎样 的 ? (第 753 ~754 页 ) 
假设 事务 的 协调 者 在 意图 列表 记录 到 日 志文 件 之 后 ,但 是 尚未 记录 参与 者 列表 或 尚未 发 送 canCom- 
mit 请 求 之 前 出 北 。 请 描述 参与 者 如 何 解 决 这 种 情况 ,协调 者 如 何 进行 恢复 ? 试问 在 记录 意图 列表 
之 前 先 记录 参与 者 列表 是 否 更 好 ? (第 758 页 ) 
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在 分 布 式 系统 中 ， 复 制 是 提供 高 可 用 性 和 容错 的 关键 技术 。 随 着 受 移动 计算 的 发 展 和 与 此 相关 的 
断 链 操作 频繁 发 生 ， 高 可 用 性 日 益 引 起 人 们 广泛 的 兴趣 。 容 错 在 安全 是 关键 要 素 的 系统 和 其 他 重要 系 
统 中 通常 作为 一 项 必 符 的 服务 被 提供 。 

本 章 的 第 一 部 分 将 讨论 这 样 一 个 系统 ， 系 统 每 次 将 一 个 操作 作用 于 复制 对 象 的 集合 。 本 章 的 开始 
描述 了 一 个 采用 复制 的 服务 的 体系 结构 组 件 和 系统 模型 。 我 们 还 描述 了 对 容错 服务 至 关 重 要 的 组 成 员 
关系 管理 ， 它 是 组 通信 的 一 部 分 。 

本 章 接着 描述 实现 容错 的 各 种 方法 。 首 先 将 介绍 线性 化 和 顺序 一 致 性 的 正确 性 标准 。 接 下 来 会 介 
绍 并 讨论 如 下 两 种 方法 : 被 动 ( 主 备份 ) 复制 (这 时 ， 客 户 与 单个 副本 进行 通信 ) ， 主 动 复制 (这 时 ， 
客户 通过 组 播 与 所 有 副本 进行 通信 ) 。 

本 章 对 三 个 提供 高 可 用 性 服务 的 系统 进行 了 实例 研究 。 在 闲聊 (gossip) 和 Bayou 体系 结构 中 ， 共 
享 数 据 各 个 副本 之 间 的 更 新 操作 是 延 时 传播 的 。 在 Bayou 中 ， 为 了 实施 一 致 性 ,使 用 了 操作 变换 技术 。 
Coda 是 高 可 用 文件 系统 的 一 个 例子 。 

本 章 的 结尾 部 分 涉及 复制 对 象 上 的 事务 (操作 的 序列 )， 详 细 阅 述 了 复制 事务 系统 的 体系 结构 以 
及 这 些 系 统 是 如 何 处 理 服务 器 故障 和 网 络 分 区 的 。 


18.1 简介 

本 章 研究 数据 的 复制 ， 即 如 何在 多 个 计算 机 中 进行 数据 副本 的 维护 。 由 于 复制 能 够 增强 性 能 ， 提 
供 高 可 用 性 和 容错 能 力 ， 因 此 它 是 保证 分 布 式 系统 有 效 性 的 一 个 关键 技术 。 复 制 技术 的 使 用 非常 广泛 。 
例如 ，Web 服务 器 的 资源 在 浏览 器 上 的 缓存 和 在 Web 代理 服务 器 上 的 缓存 都 属于 复制 的 一 种 形式 ， 因 
为 缓存 中 的 数据 和 服务 器 中 的 数据 彼此 互 为 副本 。 第 13 章 介绍 的 DNS 名 字 服 务 维护 关于 计算 机 的 名 
字 - 属性 映射 的 副本 ， 它 是 依赖 于 在 互联 网 上 每 天 对 服务 进行 访问 实现 的 。 

复制 是 一 种 增强 服务 的 技术 。 进 行 复 制 的 动机 包括 改善 服务 性 能 ， 提 高 可 用 性 ， 或 者 增强 容错 
能 力 。 

增强 性 能 : 迄今 为 止 ， 客 户 和 服务 器 的 数据 缓存 是 增强 性 能 的 常用 手段 。 例 如 ,第 2 章 曾经 提 到 ， 
浏览 器 和 代理 服务 器 都 对 Web 资源 进行 缓存 以 避免 因为 从 原始 服务 器 上 读 取 数 据 而 造成 延迟 。 进 而 ， 
数据 有 时 还 在 同一 个 域 中 的 多 个 原始 服务 器 之 间 透 明 地 复制 。 通 过 将 所 有 服务 器 卫 地 址 绑 定 到 站 点 的 
DNS 名 字 (如 www. aWebSite. org) ， 负 载 便 可 以 在 服务 器 之 间 得 以 分 担 。 当 解析 www. aWebSite. org 域 
名 时 ,将 以 循环 方式 返回 几 个 服务 器 IP 地 址 中 的 一 个 〈 参 见 13. 2. 3 节 ) 。 更 复杂 的 服务 基于 在 上 二 机 
器 之 间 的 数据 复制 ， 要 求 更 复杂 的 负载 平衡 策略 。 例 如 ，Diley 等 [2002] 描述 了 在 Akamai 内 容 分 布 
网 络 中 采用 的 DNS 名 字 和 解析 方法 。 

不 可 变数 据 的 复制 是 很 简单 的 : 它 仅 需 花费 极 小 的 代价 即 可 提高 性 能 。 变 化 数据 (如 Web 数据 ) 
的 复制 需要 额外 的 开销 ,例如 设计 有 关 协 议 来 确保 客户 接收 最 新 数据 (参见 2. 3. 1 节 ) 。 因 此 ， 作 为 性 
能 增强 的 一 项 技术 ,复制 在 有 效 性 方面 有 一 些 限制 。 

提高 可 用 性 : 用 户 要 求 服务 是 高 度 可 用 的 ， 也 就 是 说 ， 在 合理 的 响应 时 间 内 获得 服务 的 次 数 所 占 
的 比例 应 该 接近 100% 。 除 了 由 于 莫 观 并 发 控制 冲突 (数据 加 锁 ) 等 原因 造成 的 延迟 外 ， 与 高 可 用 性 
有 关 的 因素 有 : 

。 服务 器 故障 ; 

© 网 络 分 区 和 断 链 操作 : 通信 疡 链 通常 是 不 可 预计 的 ， 也 可 能 是 用 户 移动 性 带 来 的 副作用 。 

对 前 一 个 问题 ， 复 制 是 一 项 在 服务 器 故障 的 情况 下 能 够 自动 维护 数据 的 可 用 性 的 技术 。 如 果 数 据 
被 复制 到 两 个 或 者 多 个 不 受 对 方 故障 干扰 的 服务 器 上 ， 那 么 ， 客 户 软 件 就 可 能 在 默认 服务 器 错误 或 者 
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不 可 访问 的 情况 下 ， 通 过 其 他 备用 服务 器 获取 数据 。 这 就 是 说 ， 通 过 复制 服务 器 数据 ， 服 务 可 用 时 间 
的 比率 就 能 够 增加 。 如 果 个 服务 器 中 的 每 -一 个 都 有 独立 的 发 生 故 障 概率 或 者 不 可 访问 概率 pp， 那么 在 
每 个 服务 器 上 保存 的 对 象 的 可 用 性 概率 就 是 ， 
1 - 概率 (所 有 管理 器 故障 或 不 可 用 ) = 1-7" 

例如 ， 有 两 个 服务 器 ， 在 给 定 的 时 间 段 内 任何 一 个 服务 器 出 故障 的 概率 是 5% ， 那 么 其 可 用 性 概 
FORE 1-0. 05° =1 -0. 0025 =99.75% 。 缓 冲 系 统 和 服务 器 复制 的 一 个 重要 区 别 就 是 缓冲 不 必要 保存 
全 部 对 象 〈 如 文件 ) 集合 。 因 而 缓冲 在 应 用 层次 上 未 必 能 够 增强 可 用 性 ， 因 为 用 户 需 要 的 文件 可 能 没 
有 被 缓存 。 

网 络 分 区 (参见 15. 1 节 ) 和 断 链 操 作 是 影响 高 可 用 性 的 第 二 个 因素 。 移 动用 户 在 移动 过 程 中 ， 可 
能 有 意 或 无 意 地 将 计算 机 从 无 线 网 络 中 断 开 。 例 如 ， 一 个 乘坐 火车 的 用 户 ， 他 的 笔记 本 电脑 可 能 无 法 
上 网 (无 线 网 络 可 能 会 中 断 ， 或 者 可 能 没有 无 线 上 网 功能 )。 为 了 在 这 种 环境 下 工作 (这 被 称 为 断 链 
工作 或 者 断 链 操 作 ) ， 用 户 经 常 将 使 用 率 高 的 数据 ( 如 共享 日 记 的 目录 ) 从 他 们 平时 的 应 用 环境 中 复 
制 到 笔记 本 电脑 肉 。 但 是 在 断 链 期 间 ， 总 是 存在 一 个 关于 可 用 性 的 权衡 ， 当 用 户 查阅 或 更 新 日 记 时 ， 
他 们 读 到 的 数据 可 能 已 经 被 其 他 人 修改 。 例 如 ， 他 们 可 能 把 面谈 安排 在 某 个 时 间 段 ， 但 这 个 时 间 段 其 
实 已 经 被 占用 了 。 断 链 工作 仅 在 用 户 (或 代表 用 户 的 应 用 程序 ) 能 够 解决 这 种 过 期 数据 、 以 后 能 够 解 
决 由 此 导致 的 所 有 冲突 时 才 可 行 。 

容错 : 高 可 用 性 数据 未 必 是 绝对 正确 的 数据 。 例 如 ， 它 们 可 能 已 经 过 时 ， 或 者 两 个 在 网 络 分 区 不 
同 地 方 的 用 户 进行 了 有 冲突 的 更 新 操作 ， 这 里 的 证 突 是 需要 解决 的 。 相 反 地 ， 一 个 容错 服务 在 一 定数 
量 和 类 型 的 故障 范围 内 ， 总 能 保证 严格 正确 的 行为 。 这 里 的 正确 性 关注 的 是 提供 给 客户 的 数据 是 否 最 
新 以 及 客户 对 数据 的 操作 的 结果 。 正 确 性 有 时 也 考虑 服务 响应 的 及 时 性 ， 例 如 在 航空 控制 系统 中 ， 必 
须 在 短 时 间 内 获得 正确 数据 。 

在 计算 机 之 间 复 制 数据 和 功能 这 一 用 于 高 可 用 性 的 基本 技术 同样 可 用 来 实现 容错 。 如 果 f+1 个 服 
务 器 中 有 至 多 /个 服务 器 崩 江 ， 那 么 从 理论 上 讲 至 少 还 有 一 个 服务 器 能 够 提供 服务 。 如 果 至 多 f 个 服务 
器 会 发 生 拜 占 庭 故 障 ， 那么 理论 上 2f+1 个 服务 器 能 够 通过 正确 的 服务 器 以 多 数 票 击败 故障 服务 器 
(其 可 能 提供 混乱 值 ) ， 从 而 提供 正确 的 服务 。 但 是 容错 要 比 这 里 给 出 的 简单 描述 更 难以 捉摸 。 系 统 必 
须 面 对 在 任何 时 间 都 可 能 发 生 的 故障 ， 精 确 地 管理 其 组 件 之 间 的 协调 ， 以 保证 正确 性 。 

复制 透明 性 是 数据 复制 的 常见 需求 。 也 就 是 说 ， 客 户 通 常 并 不 需要 知道 存在 多 个 物理 副本 。 客 户 
关心 的 是 ,数据 被 组 织 成 独立 的 多 辑 对 象 ， 当 需要 执行 一 个 操作 时 ， 他 们 仅 对 其 中 的 一 项 进行 操作 。 
进而 ， 客 户 期 望 操 作 仅仅 返回 一 个 值 的 集合 ， 而 不 管事 实 上 的 操作 可 能 是 针对 一 个 以 上 的 物理 拷贝 一 
起 进行 的 。 

数据 复制 的 另 一 个 常见 需求 是 一 致 性 ， 不 同 应 用 之 间 的 一 致 性 在 强度 上 会 有 所 不 同 。 它 主要 关注 
针对 一 个 复制 对 象 集合 的 操作 是 否 产生 满足 这 些 对 象 正确 性 要 求 的 结果 。 

我 们 看 到 在 日 记 的 例子 中 ， 在 断 链 操作 期 间 ， 数 据 可 以 被 允许 变 得 〈 至 少 是 暂时 的 ) 不 一 致 。 但 
是 当 客 户 保持 连接 时 ， 如 果 不 同 的 客户 〈 使 用 数据 的 不 同 物 理 副 本 ) 对 同一 逻辑 对 象 发 出 请 求 ， 但 获 
取 了 不 一 致 的 数据 ， 这 通常 是 不 可 接受 的 。 换 言 之 ， 对 应 用 正确 性 标准 的 破坏 是 不 可 接受 的 。 

以 下 我 们 查看 在 利用 复制 数据 实现 高 可 用 和 容错 服务 时 的 更 详细 的 设计 问题 。 我 们 还 要 研究 一 些 
处 理 这 些 问题 的 标准 的 解决 方案 和 技术 。 首 先 ，18.2 节 ~ 18.4 节 将 描述 基于 共享 数据 的 客户 调用 。 
18.2 节 给 出 一 个 管理 复制 数据 的 通用 体系 结构 并 介绍 作为 重要 工具 的 组 通信 。 组 通信 对 于 实现 容错 极 
为 有 用 , 它 是 18. 3 节 的 主题 。18.4 节 阐述 各 种 高 可 用 技术 ,包括 断 链 操 作 。18. 4 节 还 包括 了 对 闲聊 
体系 结构 、Bayou 和 Coda 文件 系统 的 实例 研究 。18. 5 节 将 介绍 如 何在 复制 数据 上 支持 事务 。 正 如 第 16 
章 和 第 17 章 所 解释 的 ， 事 务 是 由 一 系列 操作 、 而 不 是 单个 的 操作 组 成 的 。 


18.2 系统 模型 和 组 通信 的 作用 


我 们 系统 中 的 数据 是 由 对 象 集合 组 成 的 。 一个“ 对象 ”可 以 是 一 个 文件 、 或 者 是 一 个 Java 对 象 。 
每 一 个 这 样 的 逻辑 对 象 是 由 若干 称 为 副本 (replica) 的 物理 拷贝 组 成 的 集合 实现 的 。 副 本 是 物理 对 象 ， 
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每 一 个 副本 存储 在 某 台 计 算 机 上 ， 这 些 副 本 上 的 数据 和 行为 在 系统 操作 下 遵循 某 种 程度 的 一 致 性 。 给 
定 对 象 的 副本 未 必 完 全 相同 ， 至 少 不 必 在 任何 的 时 间 点 上 都 要 求 一 样 。 一 些 副 本 可 能 已 经 接收 了 更 新 
的 数据 ， 而 另 一 些 副 本 还 没有 收 到 更 新 的 数据 。 

本 节 先 给 出 一 个 用 来 管理 副本 的 通用 系统 模型 ， 然 后 描述 了 组 通信 系统 的 作用 以 通过 复制 实现 容 
错 ， 并 突出 了 视图 同步 的 组 通信 的 重要 性 。 


18.2.1 系统 模型 


我 们 假定 一 个 异步 系统 中 的 进程 发 生 故 障 的 唯一 原因 是 出 小 。 我 们 的 默认 假设 是 不 会 发 生 网 络 分 
区 ， 但 是 我 们 有 时 也 考虑 出 现 网 络 分 区 时 会 发 生 的 情况 。 我 们 使 用 故障 检测 器 来 实现 可 靠 、 全 序 的 组 
播 ， 而 网 络 分 区 使 得 建立 故障 检测 器 变 得 更 困难 。 

从 一 般 性 方面 考虑 ， 体 系 结构 组 件 是 通过 其 作用 来 描述 的 ， 但 不 意味 着 每 项 功能 必须 用 不 同 的 进 
程 (或 者 硬件 ) 来 实现 。 模 型 中 的 副本 由 不 同 的 副本 管理 器 (Replica Manager, RM) 来 管理 ( 见 
图 18-1) 。 副 本 管理 器 是 包含 了 特定 计算 机 上 的 副本 ， 并 且 直 接 操 作 这 些 副本 的 组 件 。 该 模型 可 以 在 
客户 - 服务 器 的 环境 中 应 用 ， 此 时 ， 一 个 副本 管理 器 就 是 一 个 服务 器 。 我 们 有 时 简单 地 称 副本 管理 器 
为 服务 器 。 同 样 的， 该 模型 也 可 以 应 ee A ii 应 用 进程 既是 客户 又 是 副本 
管理 器 。 例 如 ， 乘 火车 用 户 的 笔记 本 电脑 可 以 包含 一 个 应 用 ， 它 的 作用 相当 于 用 户 日 记 的 副本 管理 器 。 

请 求 和 应 答 
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图 18-1 用 于 复制 数据 管理 的 基本 的 体系 结构 模型 


我 们 应 该 始终 要 求 一 个 副本 管理 器 对 于 它 的 副本 的 操作 是 可 恢复 的 。 这 样 ， 我 们 可 以 假定 ， 如 果 
副本 管理 器 的 一 个 操作 中 途 失 败 了 ， 这 个 操作 也 不 会 留 下 不 一 致 的 结果 。 我 们 有 时 要 求 每 个 副本 管理 
器 是 一 个 状态 机 [Lamport 1978, Schneider 1990]。 这 样 的 一 个 副本 管理 器 对 其 副本 实行 原子 性 操作 
(不 可 分 操作 ) ， 其 执行 等 价 于 以 某 种 严格 顺序 执行 操作 。 此 外 ， 副 本 的 状态 是 其 初始 状态 的 一 个 确定 
性 函数 ， 由 在 副本 上 的 操作 次 序 决定 。 其 他 外 部 因素 ， 如 时 钟 的 读数 或 传感器 的 读数 ， 不 会 对 其 状态 
值 产生 影响 。 如 果 没 有 这 个 假定 ， 在 独立 接收 更 新 操作 的 副本 管理 器 之 间 建 立 一 致 性 是 不 可 能 做 到 的 。 
系统 只 能 决定 在 所 有 副本 管理 器 上 应 用 什么 样 的 操作 和 它们 的 次 序 一 一 它 不 会 再 次 产生 非 确定 的 影响 。 
这 个 假设 意味 着 服务 器 不 可 能 是 多 线程 的 。 

在 不 特别 说 明 的 情况 下 ， 每 个 副本 管理 器 为 每 一 个 对 象 都 维护 一 个 副本 。 但 在 一 般 情 况 下 ， 不 同 
对 象 的 副本 由 不 同 的 副本 管理 器 来 维护 。 例 如 ， 一 个 网 络 上 的 客户 可 能 经 常 需要 某 个 对 象 ， 而 另 一 个 
网 络 上 的 客户 却 需要 另 一 个 对 象 。 复 制 这 些 对 象 到 其 他 网 络 的 管理 器 上 就 没什么 好 处 。 

副本 管理 器 的 集合 可 以 是 静态 的 ， 也 可 以 是 动态 的 。 在 动态 系统 中 ， 新 的 副本 管理 器 可 能 不 断 出 
现 〈 例 如 ， 另 一 个 秘书 复制 了 一 份 日 记 到 他 的 笔记 本 电脑 ) ; 而 在 静态 系统 中 这 是 不 允许 的 。 在 动态 
系统 中 ， 副 本 管理 器 可 能 崩溃 ， 接 着 它们 被 认为 离开 了 这 个 系统 〈 尽 管 它们 可 被 替换 ) 。 在 静态 系统 
中 ， 副 本 管理 器 不 崩 省 〈 崩 溃 意 味 着 将 永远 不 会 执行 下 一 步 ) ， 但 它们 可 能 停止 操作 任意 长 一 段 时 间 。 
我 们 将 在 18. 4. 2 节 讨 论 故 障 问题 。 

图 18-1 给 出 了 副本 管理 的 一 般 模型 。 副 本 管理 器 集合 给 客户 提供 了 某 种 服务 。 客 户 得 到 一 个 允许 
它们 访问 对 象 〈 例 如 ， 日 记 或 银行 账户 ) 的 服务 ， 而 这 个 对 象 其 实在 管理 器 上 被 复制 。 客 户 每 次 请 求 
一 系列 的 操作 一 一 调用 一 个 或 多 个 对 象 。 一 个 操作 可 能 组 合 了 读 对 象 和 更 新 对 象 。 不 包含 更 新 操作 的 
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请 求 称 作 只 读 请 求 ， 包 含 更 新 操作 的 请 求 称 作 更 新 请 求 〈 更 新 请 求 也 可 能 包含 读 操 作 ) 。 
每 个 客户 的 请 求 先 由 一 个 被 称 为 前 端 〈《Front End, FE) 的 组 件 处 理 。 前 端的 作用 是 通过 消息 传递 
与 多 个 副本 管理 器 进行 通信 ， 而 不 是 直接 让 客户 进行 通信 。 这 是 保证 复制 透明 性 的 一 种 手段 。 前 端 可 
以 在 客户 进程 的 地 址 空间 内 实现 ， 也 可 以 实现 成 一 个 独立 的 进程 。 
副本 对 象 上 的 一 个 操作 通常 涉及 五 个 阶段 【Wiesmann et al. 2000] 。 对 于 不 同类 型 的 系统 ， 每 一 阶 
有 段 的 动作 都 不 一 样 ， 下 面 的 两 节 会 做 进一步 的 说 明 。 例 如 ,一 个 支持 断 链 操作 的 服务 其 行为 与 支持 容 
错 的 服务 的 行为 是 不 同 的 。 这 些 阶 段 如 下 所 述 : 
HR: 前 端 将 请 求 分 给 一 个 或 多 个 副本 管理 器 。 一 种 可 能 是 前 端 和 某 个 副本 管理 器 通信 ， 这 个 管 
理 器 再 和 其 他 副本 管理 器 通信 ; 另 一 种 可 能 就 是 前 端 将 请 求 组 播 到 各 个 副本 管理 器 。 
协调 : 副本 管理 器 首先 进行 协调 以 保证 执行 的 一 致 性 。 如 果 需 要 的 话 ， 在 这 个 阶段 ， 它 们 将 就 是 
否 执行 请 求 而 达成 一 致 〈《 如 果 这 一 阶段 出 现 故障 ， 请 求 将 不 会 被 执行 ) 。 副 本 管理 器 同时 决定 该 请 求 
相对 于 其 他 请 求 的 次 序 。15. 4.3 节 中 为 组 播 定义 的 所 有 排序 类 型 同样 适用 于 请 求 处 理 ， 这 里 我 们 再 次 
简 述 一 下 这 些 排序 类 型 ; 
e FFO: 如 果 前 端 发 送 请 求 >， 然 后 发 送 请 求 " ,那么 任何 正确 的 处 理 了 的 副本 管理 器 ， 在 
处 理 r' 之 前 处 理 7。 
© 因果 序 : 如 果 请 求 r 在 请 求 "发 送 之 前 发 生 (happen-before) ， 那 么 ,任何 正确 的 处 理 了 的 副 
本 管理 器 ,在 处 理 r' 之 前 处 理 r。 
© SF; 如 果 一 个 正确 的 副本 管理 器 在 处 理 请 求 "之 前 处 理 请 求 "， 那 么 任何 正确 的 副本 管理 器 
在 处 理 ”之 前 先 处 理 r。 
大 多 数 应 用 需要 FFO 序 。 我 们 在 下 面 两 节 中 讨论 对 因果 序 、 全 序 、 混 合 序 的 需求 ， 混 合 序 是 指 既 
满足 FIFO 序 又 满足 因果 序 或 是 既 满 足 因 果 序 又 满足 全 序 。 
执行 : 副本 管理 器 执行 请 求 ， 包 括 试探 性 执行 ， 也 就 是 说 ， 这 种 请 求 执行 的 效果 是 可 以 去 除 的 。 
协定 : 副本 管理 器 对 于 要 提交 的 请 求 的 执行 结果 达成 一 致 。 例 如 ， 在 这 个 阶段 ， 在 一 个 事务 系统 
中 ,副本 管理 器 可 共同 决定 是 放弃 还 是 提交 事务 。 
响应 : 一 个 或 多 个 副本 管理 器 给 前 端 应 答 。 在 某 些 系 统 中 ， 只 有 一 个 副本 管理 器 响应 前 端 。 在 另 
外 一 些 系 统 中 ， 前 端 接收 一 组 副本 管理 器 的 应 答 ， 然 后 它 选择 或 综合 成 一 个 单独 的 应 答 返 回 给 客户 。 
例如 ， 如 果 目 标 是 高 可 用 性 ， 那 么 它 将 第 一 个 到 达 的 应 答 返 回 给 用 户 。 如 果 目 标 是 容忍 拜占庭 故 麻 ， 
那么 它 需要 将 大 多 数 副 本 管理 器 提供 的 应 答 传送 给 客户 。 
不 同 的 系统 可 以 选择 对 各 个 阶段 进行 不 同 的 排序 ， 也 可 以 选择 它们 的 内 容 。 例 如 ， 在 支持 断 链 操 
作 的 系统 中 ， 尽 早 将 应 答 反馈 给 客户 〈 例 如 用 户 笔 记 本 电脑 的 应 用 ) 是 非常 重要 的 。 用 户 并 不 希望 一 
直 等 到 笔记 本 电脑 的 副本 管理 器 和 办 公 室 里 的 副本 管理 器 能 够 协调 。 相 比 之 下 ， 在 一 个 容错 系统 中 ， 
在 结果 的 正确 性 得 到 保证 以 前 将 不 会 把 应 答 给 客户 。 


18.2.2 组 通信 的 作用 


第 6 章 介绍 了 组 通信 的 概念 ，15. 4 节 通 过 覆盖 了 组 通信 系统 中 消息 传递 的 可 靠 性 和 排序 的 算法 扩 
展 了 关于 组 通信 的 讨论 。 在 本 章 中 ， 我 们 将 查看 在 管理 复制 数据 中 的 组 的 角色 。15. 4 节 将 组 成 员 定义 
成 静态 的 ， 尽 管 组 成 员 可 能 崩溃 。 然 而 ， 在 复制 中 ， 在 许多 其 他 实际 环境 中 ， 确 实 需 要 动态 的 成 员 关 
R: 在 系统 执行 过 程 中 ， 进 程 可 以 加 入 和 离开 组 。 例 如 ， 在 管理 复制 数据 的 服务 中 ， 用 户 可 以 增加 或 
删除 一 个 副本 管理 器 ， 一 个 副本 管理 器 也 可 能 由 于 崩溃 而 需要 从 系统 的 操作 中 删除 。 因 此 ，6.2 2 节 
引入 的 组 成 员 关系 管理 ， 在 这 里 特别 重要 。 

如 果 系 统 自身 能 适应 进程 加 入 、 离 开 和 崩溃 的 情况 ,那么 它 〈 特 别 是 容错 系统 ) 通常 会 要 求 有 更 
高 级 的 特性 ， 例 如 故障 检测 和 组 成 员 关系 变更 通知 等 。 一 个 完整 的 组 成 员 关 系 服务 维护 组 视图 (group 
view) ， 即 由 唯一 进程 标识 符 标 识 的 当前 组 成 员 的 列表 。 该 列表 是 有 序 的 ， 例 如 ， 可 按照 成 员 加 人 组 的 
顺序 来 排序 。 每 次 当 一 个 进程 加 入 组 或 从 组 中 删除 时 ， 一 个 新 的 组 视图 就 产生 了 。 

非常 重要 的 一 点 是 ， 组 成 员 关 系 服务 可 能 因为 某 个 进程 处 于 “怀疑 ”状态 而 将 该 进程 删除 ， 尽 管 
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这 个 进程 可 能 还 未 崩 湾 。 通 信和 故障 可 以 使 进程 变 得 不 可 达 ， 尽 管 它 仍 在 正常 执行 。 组 成 员 关 系 服务 总 
是 自由 删除 这 样 的 进程 。 删 除 的 结果 是 ， 此 后 消息 将 不 再 发 送 给 这 个 进程 。 而 且 ， 面 对 一 个 封闭 组 ， 
如 果 这 个 进程 再 次 被 连接 ， 那 么 它 试 图 发 送 的 消息 都 不 会 发 给 组 成 员 ， 这 个 进程 必须 重新 加 和 人 这 个 组 
(作为 自己 的 一 个 “新 生 ”， 将 获取 新 的 标识 符 ) ， 或 放弃 它 的 操作 。 

如 果 错 误 地 怀疑 进程 并 进而 将 其 从 组 中 删除 ， 那 么 将 降低 组 的 有 效 性 。 组 不 得 不 负责 退出 的 进程 
可 能 已 经 提供 的 可 靠 性 和 性 能 。 除 了 要 将 故障 检测 器 设计 得 尽 可 能 准确 ， 设 计 挑 战 还 在 于 ， 要 保证 当 
一 个 进程 被 错误 地 怀疑 时 ， 组 通信 也 不 会 异常 工作 。 

组 管理 服务 如 何 对 待 网 络 分 区 是 需要 重点 考虑 的 。 诸 如 网 络 中 的 路 由 器 等 组 件 的 断 链 或 故障 都 会 
使 一 个 进程 组 分 制 成 两 个 或 更 多 子 组 ， 这 些 子 组 之 间 不 能 通信 。 组 管理 服务 的 不 同 在 于 它们 是 主 分 区 
( primary- partition) 还 是 可 分 区 的 《partitionable) 。 在 第 一 种 情况 下 ,组 管理 服务 最 多 允许 网 络 分 区 中 
有 一 个 子 组 (一 个 较 大 的 子 组 ) 在 网 络 分 区 中 存活 ， 其 他 进程 被 告知 挂 起 。 这 种 安排 非常 适合 于 进程 
管理 重要 的 数据 以 及 各 子 组 之 间 的 不 一 致 的 代价 大 于 断 链 操作 优点 的 情景 。 

男 一 方面 ， 在 某 些 情况 下 ， 两 个 或 更 多 的 子 组 继续 操作 是 可 接受 的 ， 一 个 可 分 区 的 组 成 员 关 系 服 
务 允许 这 样 。 例 如 ， 在 一 个 应 用 中 ， 用 户 召 开 音频 或 视频 会 议 来 讨论 某 些 问 题 ， 当 发 生 分 区 时 两 个 或 
更 多 的 子 组 成 员 之 间 进 行 独立 讨论 是 允许 的 。 当 分 区 修复 ， 各 子 组 又 连接 上 时 ， 他 们 可 以 再 综合 他 们 
的 讨论 结果 。 

视图 传递 ”考虑 某 个 程序 员 的 任务 是 写 一 个 应 用 ， 这 个 应 用 在 一 组 进程 中 的 每 一 个 进程 上 运行 ， 
它 必须 处 理 新 的 和 丢失 的 组 成 员 。 程 序 员 需要 知道 当 组 成 员 变更 时 ， 系 统 用 某 种 一 致 性 的 方法 来 对 待 
每 一 个 组 成 员 。 每 当 组 成 员 变化 时 ， 如 果 程 序 员 不 能 在 本 地 就 如 何 响应 变更 做 出 决定 ， 而 不 得 不 查询 
所 有 其 他 的 组 成 员 的 状态 才能 做 出 决定 ， 那么 这 种 方法 是 非常 策 拙 的 。 程 序 员 工作 的 难 易 取决 于 系统 
能 够 确保 何 时 将 视图 传递 给 组 成 员 。 

对 于 每 个 组 85， 组 管理 服务 将 一 系列 的 视图 mw(g) ,v1(g)，v,(g)，… 传 递 给 组 的 每 个 进程 p eg。 
例如 ,一 个 视图 的 序列 可 以 是 ww(g) =(p), vi(g) =(p, p') 和 ww(g) =(p)， 即 首先 p 加 入 一 个 空 组 ， 
然后 p' 加 入 组 ， 然 后 p" 离 开 。 虽 然 几 个 组 成 员 关 系 的 改变 可 能 同时 发 生 ， 例 如 ， 某 个 进程 进入 组 时 另 
一 个 进程 离开 组 ， 但 是 ， 系 统 要 对 每 个 进程 给 视图 的 序列 加 上 一 个 顺序 。 

如 果 当 组 成 员 关 系 发 生变 更 时 ， 一 个 成 员 将 新 的 成 员 关 系 告知 给 应 用 (和 进程 传递 组 播 消息 类 
似 ) ， 那 么 我 们 称 这 个 成 员 传递 了 视图 。 与 组 播 传递 一 样 ， 传 递 视图 和 接收 视图 是 截然 不 同 的 。 组 成 员 
关系 协议 将 提出 的 视图 放 到 一 个 保留 队列 上 ， 直 到 所 有 现 有 的 组 成 员 同 意 进 行 传递 为 止 。 

如 果 在 一 个 事件 发 生 时 ， 进 程 p 已 经 传递 了 视图 o(p) 但 是 还 没有 传递 下 一 个 视图 v'(g)， 那 么 ， 
我 们 称 这 个 事件 发 生 在 进程 p 的 视图 v(p) 中 。 

视图 传递 有 如 下 一 些 基 本 需求 : 

顺序 : 如果 一 个 进程 p 传递 了 视图 v(g) ， 然 后 传 视图 vw'(g)， 那么 不 存在 这 样 的 进程 xp, CE 
og) 之 前 传递 v'(g)。 

完整 性 ， 如果 进 程 p 传递 了 视图 v(g) ,那么 p ev(g)。 

非 平凡 性 : 如 果 进 程 g 加 入 一 个 组 中 ,并 且 对 于 g 来 说 变 为 从 进程 p 埃 g 无 限期 地 可 达 的 话 ， 那么 
BA 9 总 是 在 p 传递 的 视图 中 。 同 样 的 ， 如 果 组 被 分 割 并 形成 分 区 并 且 分 区 仍然 存在 ， BARRE 
一 个 分 区 所 传递 的 视图 将 不 包含 其 他 分 区 中 的 进程 。 

通过 保证 在 不 同 的 进程 中 视图 变化 总 是 以 同样 的 次 序 发 生 ， 上 面 的 第 一 个 需求 是 向 程序 员 提 供 一 
致 性 保证 。 第 二 个 需求 是 一 个 “常规 检查 ” 。 第 三 个 需求 是 为 了 防止 平凡 的 解决 方案 。 例 如 ， 一 个 组 
成 员 关 系 服务 不 管 进 程 的 连接 性 如 何 ， 告 诉 每 一 个 进程 它 自己 独自 地 在 这 个 组 中 并 不 令 人 感 兴趣 。 非 
平凡 性 条 件 表明 ， 如 果 两 个 已 经 加 入 了 同一 个 组 的 进程 能 进行 无 限期 的 通信 ， 那 么 它们 将 被 认为 是 该 
组 的 成 员 。 类 似 的 ， 当 发 生 分 区 时 ， 组 成 员 关 系 服务 应 该 最 终 反 映 分 区 。 条 件 并 没有 说 明 在 有 问题 的 
间 坎 性 连接 时 应 如 何 处 理 组 成 员 关系 服务 。 

视图 同步 的 组 通信 ”在 组 播 消息 传递 方面 ， 视 图 同步 的 组 通信 系统 除了 以 上 视图 传递 的 要 求 外 ， 
还 做 出 额外 的 保证 。 视 图 同步 的 组 播 通信 扩展 了 第 15 章 讨论 的 可 靠 组 播 语 义 ， 考 虑 到 了 组 视图 的 动态 
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变化 。 为 了 简化 讨论 ,我们 只 考虑 不 发 生 分 区 的 情况 。 视 图 同步 的 组 通信 提供 的 保证 如 下 : 

协定 : 正确 的 进程 传递 相同 序列 的 视图 (从 加 入 组 的 视图 开始 ) ， 并 且 在 任何 给 定 的 视图 中 传递 
同样 的 消息 集合 。 换 句 话 说， 如 果 一 个 正确 的 进程 在 视图 "(g) 中 传递 了 消息 mm， 那么 所 有 其 他 传递 mm 
的 正确 的 进程 都 在 视图 og) 中 传递 m。 

完整 性 : 如 果 一 个 正确 的 进程 p 传递 消息 m， 那 么 它 不 会 再 传递 m， TH, pegroup(m), F#HK 
送 m 的 进程 处 于 p 传递 mm 的 视图 中 。 

Axe (HA): 正确 进程 总 是 传递 它们 发 送 的 消息 。 如 果 系 统 在 向 进程 y 传递 消息 时 发 生 了 故 
障 ， 那 么 它 将 传递 一 个 删除 了 ¢ 的 视图 给 余下 的 进程 。 也 就 是 说 ， 设 p 是 一 个 正确 的 进程 ， 它 在 视图 
vg) 中 传递 消息 m。 如 果菜 个 进程 gev(g) 没有 在 视图 v(g) PRm, IAE p 传递 的 下 一 个 视图 
v'(g) 中 将 有 gev(g)。 

考虑 一 个 具有 三 个 进程 p、g、r 的 组 《如 图 18-2 Bras). BRR p 在 视图 (p,q, r) 中 发 送 一 个 消 
Am, p 发 送 完 消息 mn 后 就 崩 演 了， 而 g 和 7 仍然 正确 运行 。 一 种 可 能 性 是 当 m 到 达 任 何其 他 的 进程 之 
前 p 就 骨 当 了。 在 这 种 情况 下 ，g 和 每 个 传递 新 的 视图 (9，r) ,但 都 不 会 传递 消息 m (如 图 18-2a 所 
示 )。 男 一 种 可 能 性 是 当 p 崩溃 时 ， 消 息 玫 至 少 到 达 了 余下 的 两 个 未 崩溃 进程 中 的 一 个 。 此 时 9 和 7 都 
先 传递 消息 下， 然后 传递 视图 (q, r) (ALE 18-2b), ike 和 7 先 传递 视图 (9，r) 然后 传递 m 是 不 
允许 的 《参见 图 18-2c) ， 因 为 那样 的 话 它们 将 传递 来 自己 经 出 现 故障 的 进程 的 消息 。 同 样 ， 两 个 进程 
也 不 能 以 相反 的 次 序 传递 消息 和 新 视图 ( 见 图 18-2d) 。 





; PŘ ; PRAY 
xX ; 
， 义 X k 
4 t ' 
视图 p, q, p 视图 (9， 门 视图 p, q, r) 视图 (49, 2 
a) 人 允许 b) 允许 


PRE ; PÄR 





视图 p, q 视图 (9, n 视图 (p,q,r) BR”) 
c) 不 允许 d) 不 允许 


图 18-2 ”组 通信 中 的 视图 同步 


在 一 个 视图 同步 系统 中 ， 新 视图 的 传递 在 概念 上 绘制 出 一 条 横 穿 系统 的 线 ， 每 一 个 被 传递 的 消息 
都 在 线 的 一 端 或 另 一 端 被 一 致 她 传递。 这样 ， 当 程序 员 传递 一 个 新 的 视图 时 ， 他 只 需 根据 局 部 的 消息 
传递 和 视图 传递 事件 的 次 序 ， 就 能 推断 出 其 他 正确 进程 已 经 传递 的 消息 的 集合 。 

用 视图 同步 通信 来 进行 状态 转换 ， 即 工作 状态 从 一 个 进程 组 的 当前 成 员 转 到 组 的 一 个 新 成 员 ， 这 
可 以 说 明 视图 同步 通信 的 用 处 。 例 如 ， 如 果 进 程 是 保存 日 记 状 态 的 副本 管理 器 ， 然 后 副本 管理 器 在 加 
人 组 时 ， 需 要 获得 日 记 的 当前 状态 。 然 而 当日 记 状 态 被 捕获 的 同时 ， 日 记 同时 被 更 新 了 。 副 本 管理 器 
不 应 遗漏 任何 在 它 获 得 的 状态 中 没有 反映 出 来 的 更 新 消息 ， 也 不 应 重新 使 用 已 经 反映 在 状态 中 的 更 新 
信息 〈 除 非 这 些 更 新 是 宕 等 的 ) 。 

为 了 获得 这 种 状态 转换 ， 我 们 可 以 在 如 下 的 一 个 简单 的 方案 中 应 用 袖 图 同步 通信 。 当 第 一 个 包含 
新 进程 的 视图 被 传递 时 ， 现 有 成 员 中 的 一 个 不 同 的 进程 (比如 最 早 的 一 个 ) 截获 了 它 的 状态 , 将 其 以 
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一 对 一 方式 发 送 给 新 的 成 员 并 且 挂 起 它 自身 的 执行 。 所 有 其 他 的 已 上 有 进程 也 都 暂停 它们 的 执行 。 注 意 ， 
根据 视图 同步 通信 的 定义 ,反映 到 这 个 状态 中 的 更 新 集合 要 非常 明确 地 应 用 到 其 他 所 有 的 成 员 。 当 新 774] 
进程 收 到 状态 后 会 集成 它 ， 然 后 组 播 一 个 “开始 ”消息 给 组 ， 这 时 所 有 的 进程 再 次 执行 。 

讨论 ”我们 已 经 给 出 的 视图 同步 的 组 通信 概念 是 “ 虐 拟 同步 ”通信 范 型 的 一 种 形式 。 这 个 范 型 最 
早 开发 于 ISIS 系统 中 [Birman 1993, Birman et al. 1991, Birman and Joseph 1987b] 。Schiper 和 Sandoz 
[1993] 描述 了 一 个 获得 视图 同步 ‘他 们 称 做 原子 视图 ) 通信 的 协议 。 注 意 ， 组 成 员 关 系 服 务 获 得 了 
共识 ， 它 这 样 做 并 不 违反 Fischer 等 人 [1985] 的 关于 不 可 能 性 的 理论 结果 。 就 像 我 们 将 在 15.5.4 节 
中 描述 的 那样 ， 系 统 可 通过 使 用 一 个 适当 的 故障 检测 器 来 巧妙 地 解决 这 个 问题 。 

Schiper 和 Sandoz 还 提供 了 一 个 统一 的 视图 同步 通信 版 本 。 在 这 个 版 本 中 ， 协 定 条 件 包 括 了 进程 崩 
溃 的 情况 。 这 与 组 播 通信 的 统一 协定 也 是 相似 的 ， 后 者 已 在 15.4.2 节 中 描述 了 。 在 视图 同步 通信 的 统 
一 版 本 中 ， 即 使 一 个 进程 在 它 传递 完 消息 后 骨 江 了 ， 所 有 正确 的 进程 也 会 在 同样 的 视图 中 传递 这 个 消 
息 。 这 个 强大 的 保证 有 时 在 容错 应 用 中 很 有 用 ， 因 为 一 个 已 经 传递 了 消息 的 进程 在 裔 省 以 前 可 能 对 外 
部 的 世界 有 一 定 的 影响 。 出 于 同样 的 原因 ，Hadzilacos 和 Toueg [1994] 考虑 了 在 第 15 章 中 描述 的 可 靠 
的 和 有 序 的 组 播 协 议 的 统一 版 本 。 

V 系统 [Cheriton and Zwaenepoel 1985] 是 第 一 个 支持 进程 组 的 系统 。 在 ISIS 系统 之 后 ， 具 有 某 种 组 
成 员 关系 服务 的 进程 组 开始 在 其 他 的 系统 中 开发 出 来 ， 这 包括 Horus [ van Renesse et al. 1996] 和 Totem 
[ Moser et al. 1996] 以 及 Transis [Dolev and Malki. 1996 ] 。 

针对 可 分 区 的 组 成 员 关 系 服务 ,视图 同步 也 有 其 相应 的 变种 ， 包 括 支持 分 区 处 理 的 应 用 [ Babao- 
glu et al. 1998] 和 扩展 的 虚拟 同步 【Moser et al. 1994], 

最 后 ，Cristian [1991b] 讨论 了 用 于 同步 分 布 式 系统 的 组 成 员 关系 服务 。 


18.3 容错 服务 


本 节 讨 论 如 何 通过 在 副本 管理 器 上 复制 数据 和 功能 来 提供 容错 服务 ， 即 使 有 至 多 /个 进程 出 故障 
还 能 提供 正确 的 服务 。 为 了 简单 起 见 ， 我 们 假定 通信 是 可 靠 的 ， 并且 不 发 生 分 区 。 

假设 每 个 副本 管理 器 按照 它 管 理 的 对 象 在 没有 崩溃 时 的 语义 规约 来 执行 。 例 如 ， 银 行 账户 的 规约 
包括 如 下 保证 : 在 银行 账户 间 转 账 的 资金 不 会 消失 ， 并 且 只 有 存款 和 取款 会 影响 某 个 账户 的 余额 。 

直观 上 ， 如 果 在 出 现 故 障 情况 下 ， 服 务 还 能 保持 响应 并 且 客 户 不 能 区 别 服务 是 实现 在 副本 数据 上 
还 是 由 一 个 正确 的 副本 管理 器 提供 的 ， 那 么 基于 复制 的 服务 是 正确 的 。 我 们 必须 非常 仔细 地 对 待 这 个 
准则 。 和 否则 ， 如 果 不 采 取 相 应 预防 措施 ， 在 有 许多 副本 管理 器 时 ， 可 能 会 发 生 异 常 一 一 即便 我 们 考虑 [775 
的 是 一 个 操作 而 不 是 一 个 事务 。 

考虑 一 个 简单 的 复制 系统 ， 其 中 两 个 副本 管理 器 分 别 位 于 计算 机 4 和 B 上， 它们 都 维护 两 个 银行 
账户 * Aly 的 副本 。 客 户 在 本 地 的 副本 管理 器 上 读 取 和 更 新 账户 ， 如 果 本 地 副本 管理 器 出 现 故 障 ， 就 
尝试 使 用 另 一 个 管理 器 。 当 响应 完 客 户 后 ， 副 本 管理 器 会 在 后 台 相 互 传播 更 新 。 两 个 账户 初始 余额 为 
$0. 

客户 1 在 它 的 本 地 副本 管理 器 BL x 的 余额 为 $1， 然 后 试图 更 新 y 的 余额 为 $2， 但 是 发 现 B 
出 故障 了 。 客 户 1 因此 将 更 新 应 用 在 4 上 。 现 在 客户 2 在 它 的 本 地 副本 管理 器 4 上 读 取 余 额 ， 发 现 y 
有 $2， 然后 发 现 x 是 $0 一 一 由 于 B 出 现 故 障 ，B 的 银行 账户 s 的 更 新 没有 传 过 来 。 这 种 情况 如 下 所 
示 ， 每 个 操作 被 标记 上 其 首次 发 生 时 所 处 的 计算 机 名 。 另 外 ， 操 作 按 发 生 次 序 排列 ， 


客户 1 客户 2 
setBalancep (x, 1) 





setBalance,(y, 2) 
getBalance, (7y) 一 2 
getBalance, (%)—0 


这 个 执行 不 符合 银行 账户 行为 的 规约 : 客户 2 如 果 读 到 了 y 的 余额 为 $2， 那 它 应 该 读 到 « 的 余额 
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为 $1， 因 为 y 的 余额 是 在 * 余额 更 新 之 后 更 新 的 。 如 果 银 行 账户 是 由 一 台 服 务 器 实现 的 话 ， 那 么 这 种 
复制 情况 下 的 异常 将 不 会 发 生 。 我 们 可 以 构建 一 个 管理 副本 对 象 的 系统 ， 它 不 会 出 现 因为 采用 了 例子 
中 的 简单 协议 而 发 生 的 异常 行为 。 为 此 ， 我 们 必须 首先 理解 复制 系统 的 正确 行为 是 什么 样 的 。 

线性 化 能 力 和 顺序 一 致 性 ”对 于 复制 对 象 有 不 同 的 正确 性 准则 。 最 严格 的 正确 系统 是 可 线性 化 的 ， 
该 性 质 称 为 线性 化 能 力 。 为 了 理解 线性 化 能 力 ， 考 虑 一 个 有 两 个 客户 的 复制 服务 实现 。 设 客户 i 的 某 
一 执行 中 读 和 更 新 操作 的 序列 为 op ，o4 ，o0z，…… 。 其 中 每 一 个 操作 o% 在 运行 时 被 指定 了 操作 类 型 、 
参数 和 返回 值 。 我 们 假定 每 一 个 操作 都 是 同步 的 ， 即 客户 在 执行 下 一 个 操作 前 必须 等 待 前 一 个 操作 的 
完成 。 

管理 单 副本 对 象 的 单个 服务 器 总 是 能 串 行 化 客户 的 操作 。 在 只 有 客户 1 和 客户 2 的 执行 情况 下 ， 
这 种 操作 的 交错 序列 可 能 是 oo On, O10, Ons On, On, “UN 。 我 们 通常 参考 一 个 唐 拟 的 客户 操作 交 
错 序列 来 定义 复制 对 象 的 正确 性 准则 。 这 种 序列 未 必 在 每 台 副 本 管理 器 上 发 生 ， 但 它 建立 了 执行 的 正 
确 性 。 

一 个 被 复制 的 共享 对 象 服务 ， 如 果 对 于 任何 执行 ， 存 在 某 一 个 由 全 体 客户 操作 的 交错 序列 ， 并 满 
足以 下 两 个 准则 ， 则 该 服务 被 认为 是 可 线性 化 的 : 

。 操作 的 交错 执行 序列 符合 对 象 的 (单个 ) 正确 副本 所 遵循 的 规约 。 

。 操作 的 交错 执行 次 序 和 实际 运行 中 的 次 序 实时 一 致 。 

该 定义 符合 这 样 的 观点 : 对 于 任何 客户 操作 ， 依 靠 共 享 对 象 的 虚拟 映像 ， 有 一 个 虚拟 的 规范 执 
行 一 一 所谓 规范 执行 是 指 由 定义 确定 的 交错 执行 操作 。 每 个 客户 看 到 的 共享 对 象 的 视图 和 那个 映像 一 
致 ， 即 当 客户 的 操作 发 生 在 交错 执行 序列 中 时 ， 这 些 操作 结果 才 有 意义 。 

在 前 面 的 例子 中 ， 引 起 银行 账户 客户 执行 的 服务 不 是 可 线性 化 的 。 即 使 忽略 了 操作 发 生 的 真实 时 
间 ， 也 没有 两 个 客户 操作 的 任何 序列 满足 银行 账目 规约 。 为 了 进行 审计 ， 如 果 一 个 账户 的 更 新 发 生 在 
另 一 个 账户 更 新 之 后 ， 那 么 如 果 已 经 观察 到 第 二 个 更 新 ， 第 一 个 更 新 也 应 该 被 观察 到 。 

注意 ， 线 性 化 能 力 仅仅 考虑 单个 操作 的 交错 次 序 ， 并 不 打算 成 为 事务 的 。 如 果 不 施加 并 发 控制 ， 
那么 一 个 可 线性 化 操作 可 能 破坏 应 用 特定 的 一 致 性 概念 。 

线性 化 能 力 中 的 实时 要 求 是 现实 世界 所 需要 的 ， 这 是 因为 它 符合 我 们 的 观念 : 客户 应 该 收 到 最 新 
的 数据 。 不 过 ， 定 义 中 的 实时 性 要 求 会 引起 线性 化 能 力 的 一 些 现 实 问题 ， 因 为 我 们 不 能 总 是 将 时 钟 同 
步 到 要 求 的 精确 程度 。 一 个 较 弱 的 正确 性 条 件 是 顺序 一 致 性 〈sequential consistency) 。 在 不 要 求实 时 的 
情况 下 ， 这 个 条 件 抓 住 了 处 理 请 求 的 顺序 的 实质 。 顺 序 一 致 性 保留 了 线性 化 能 力 定 义 中 的 第 一 个 准则 ， 
但 对 第 二 个 准则 做 了 修改 : 

一 个 被 复制 的 共享 对 象 服务 被 称 为 是 顺序 一 致 的 ， 如 果 对 任何 执行 而 言 ， 由 所 有 客户 发 出 的 操作 
序列 存在 某 种 交错 执行 ， 并 满足 下 面 商 个 条 件 : 

© 操作 的 交错 序列 符合 对 象 的 (单个 ) 正确 副本 所 遵循 的 规约 。 

© 操作 在 交错 执行 中 的 次 序 和 在 每 个 客户 程序 中 执行 的 次 序 一 致 。 

注意 ， 在 上 述 定义 中 并 没有 出 现 绝对 时 间 ， 在 操作 上 也 没有 要 求 任何 全 序 。 与 次 序 相关 的 唯一 概 
念 是 每 个 客户 上 的 事件 次 序 一 一 程序 的 次 序 。 操 作 的 交错 执行 会 以 任意 方式 来 重新 排列 一 个 客户 集合 
上 的 操作 ， 只 要 不 违反 每 个 客户 的 顺序 ， 而 且 按照 对 象 规 约 而 言 ， 每 个 操作 的 结果 与 重新 排列 前 的 操 
作 结果 一 致 。 这 就 像 把 几 堆 牌 以 某 种 方式 混在 一 起 ， 但 要 求 保持 每 堆 牌 的 原 有 次 序 一 样 。 

每 一 个 可 线性 化 服务 都 是 顺序 一 致 的 ， 这 是 因为 实时 次 序 反 映 了 程序 次 序 。 但 是 反之 不 成 立 。 下 
面 的 例子 满足 顺序 一 致 性 ， 但 不 是 可 线性 化 的 : 


客户 1 客户 2 


setBalancep (x*, 1) 











getBalancea (y)—2 
getBalance, (x) —0 
setBalance,(y, 2) 
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这 个 执行 在 简单 复制 策略 下 是 有 可 能 出 现 的 ， 即 使 计算 机 4 和 8B 都 没 出 故障 ,但 客户 1 在 B 上 对 
% 的 更 新 在 客户 2 读 取 它 时 没有 到 达 的 话 ， 就 会 出 现 这 种 情况 。 在 该 例 中 ， 由 于 getBalances (x) 一 0 发 
生 在 seiBalances(x，1) 之 后 ， 因 此 线性 化 的 实时 准则 没有 满足 。 但 是 下 面 的 交错 执行 却 满足 顺序 一 致 
性 的 两 个 准则 : getBalance,(y)—0, getBalance,(x)—0, setBalancep(x, 1), setBalance, (y, 2)。 

Lamport 考虑 了 共享 内 存 寄 存 器 的 顺序 一 致 性 【1979] 和 线性 化 问题 [1986] (尽管 他 使 用 的 术语 
是 “原子 性 ”而 不 是 “线性 化 能 力 ”) Herlihy 和 Wing [1990] 将 这 一 思想 加 以 推广 ， 使 之 涵盖 任意 
共享 对 象 。 分 布 式 共享 内 存 系统 也 支持 弱 一 致 性 模型 ， 可 参见 本 书 Web 站 点 [www. cdk5. net/dsm] 的 
讨论 。 


18. 3.1 被 动 ( 主 备份 ) 复制 


在 用 于 容错 的 被 动 或 主 备份 (primary-backup) 复制 模型 中 〈 见 图 18-3) ， 任 何 时 候 都 有 一 个 主 副 
本 管理 器 和 一 个 或 多 个 次 备份 副本 管理 器 ， 它 们 称 为 “备份 ”或 “从 管理 器 ”。 该 模型 的 实质 是 ， 前 
端 只 和 主 副本 管理 器 通信 以 获得 服务 。 主 副本 管理 器 执行 操作 并 将 更 新 操作 的 副本 发 送 到 备份 副本 管 
理 器 。 如 果 主 副本 管理 器 出 现 故 障 ， 那 么 某 个 备份 副本 管理 器 将 被 提升 为 主 副本 管理 器 。 


主 副本 





图 18-3 用 于 容错 的 被 动 ( 主 备份 ) 模型 


当 用 户 需 要 执行 一 个 操作 时 ， 事 件 的 次 序 如 下 : 

1) WR: 前 端 将 请 求 发 送 给 主 副本 管理 器 ， 请 求 中 包括 了 一 个 唯一 标识 符 。 

2) DA: 主 副 本 管理 器 按 收 到 请 求 的 次 序 原子 地 执行 每 一 个 请 求 。 它 检查 请 求 的 唯一 标识 符 ， 如 
果 请 求 已 经 执行 了 ， 那 只 需 再 次 发 送 应 答 。 

3) 执行 : 主 副本 管理 器 执行 请 求 并 存储 应 答 。 

4) 协定 : 如 果 请 求 是 更 新 操作 ， 那 么 主 副本 管理 器 向 每 个 备份 副本 管理 器 发 送 更 新 后 的 状态 、 应 
答 和 唯一 标识 符 ， 备 份 副本 管理 器 返回 一 个 确认 。 

5) 响应 : 主 副 本 管理 器 将 响应 前 端 ， 前 端 将 应 答 发 送 给 客户 。 

在 主 副 本 管理 器 正确 运行 的 情况 下 ， 由 于 主 副 本 管理 器 在 共享 对 象 上 将 所 有 操作 顺序 化 ， 因 此 该 
系统 显然 是 具有 线性 化 能 力 的 。 当 主 副本 管理 器 出 故障 时 ， 如 果 某 个 备份 变 为 新 的 主 副本 管理 器 并 且 
新 的 系统 配置 从 故障 点 正确 接管 的 话 ， 那 么 系统 仍 具有 线性 化 能 力 。 也 就 是 下 列 条 件 成 立 : 

。 主 副本 管理 器 被 唯一 的 备份 副本 管理 器 代替 (如 果 两 个 客户 使 用 两 个 备份 ， 那 么 系统 将 不 会 正 

确 执行 ) ; 

。 当 接 管 主 副本 管理 器 时 ， 剩 余 的 备份 副本 管理 器 在 哪些 操作 已 被 执行 上 达成 一 致 。 

如 果 副 本 管理 器 ( 主 副 本 管理 器 和 备份 副本 管理 器 ) 组 织 为 一 个 组 ， 并 且 主 副本 管理 器 使 用 视图 
同步 组 通信 发 送 更 新 到 备份 ， 那 么 上 述 两 个 要 求 都 能 达到 。 上 述 两 个 要 求 中 的 第 一 个 要 求 很 容易 满足 。 
当主 副本 管理 器 崩溃 时 ， 通 信 系 统 最 终 传递 一 个 新 的 视图 给 存活 的 备份 副本 管理 器 ， 该 视图 不 包含 原 
来 的 主 副 本 管理 器 。 替 代 主 副本 管理 器 的 备份 可 以 用 针对 该 视图 的 任何 函数 选择 ， 比 如 可 选择 视图 中 
的 第 一 个 成 员 作 为 替代 。 作 为 替代 的 那个 备份 副本 管理 器 使 用 名 字 服 务 将 自己 登记 为 主 副 本 管理 器 ， 
客户 在 怀疑 主 副本 管理 器 出 故障 (或 在 第 一 次 请 求 服务 ) 时 可 以 通过 名 字 服 务 进行 查询 。 

通过 使 用 视图 同步 的 排序 性 质 ， 以 及 通过 存储 标识 符 来 检测 重复 的 请 求 ， 可 以 满足 第 二 个 要 求 。 
视图 同步 的 语义 保证 了 在 传递 新 视图 以 前 ， 或 者 所 有 备份 副本 管理 器 或 者 没有 备份 副本 管理 器 传递 任 
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何 更 新 。 这 样 ， 新 的 主 副本 管理 器 和 存活 下 来 的 备份 副本 管理 器 能 就 客户 的 更 新 是 否 已 执行 达成 一 致 。 

现在 来 考虑 前 端 没 有 收 到 应 答 的 情况 。 前 端 将 请 求 重 传 到 接管 主 副本 管理 器 的 备份 副本 管理 器 。 
主 副本 管理 器 在 操作 执行 的 任何 点 都 可 能 崩溃 。 如 果 它 在 “协定 ”阶段 4) 之 前 崩溃 ， 那 么 存活 的 副 
本 管理 器 将 不 再 处 理 这 个 请 求 。 如 果 它 在 “协定 ”阶段 中 崩溃 ， 那 么 它们 可 能 已 经 执行 了 那个 请 求 。 
如 果 它 在 协定 阶段 之 后 崩溃 ， 那 么 它们 肯定 不 会 再 处 理 这 些 请 求 。 但 新 的 主 副本 管理 器 并 不 需要 知道 
原来 的 管理 器 在 崩溃 时 处 在 什么 阶段 。 当 它 收 到 一 个 请 求 ， 它 从 第 二 阶段 开始 执行 。 通 过 视图 同步 ， 
主 副本 管理 器 并 不 需要 查询 备份 副本 管理 器 ， 因 为 它们 处 理 了 同样 的 消息 集合 。 

有 关 被 动 复 制 的 讨论 ”当主 副本 管理 器 以 非 确 定性 方式 运行 时 〈 例 如 以 多 线程 方式 操作 时 ) ， 可 
以 使 用 主 备份 模型 。 由 于 主 副 本 管理 器 是 将 操作 的 更 新 状态 发 送 给 备份 副本 管理 器 而 不 是 发 送 操作 自 
身 的 规约 ， 所 以 备份 副本 管理 器 只 是 被 动 地 记录 这 些 由 主 副本 管理 器 的 行为 独立 决定 的 状态 。 

为 了 能 够 在 至 多 f 个 进程 衣 涡 时 还 能 工作 ， 被 动 的 复制 系统 需要 /+1 个 副本 管理 器 (但 该 系统 不 
能 忍受 拜占庭 故障 ) 。 前 端 不 需要 任何 容错 功能 。 不 过 ， 当 当前 的 主 副本 管理 器 不 响应 时 ， 前 端 需要 查 
找 新 的 主 副本 管理 器 。 

被 动 复制 的 缺点 是 开销 相对 较 大 。 视 图 同步 通信 在 每 次 组 播 时 需要 见 个 回合 的 通信 ， 而 且 当 主 副 
本 管理 器 发 生 故 障 时 ， 组 通信 系统 需要 进行 协商 并 传递 新 视图 ， 这 会 导致 更 多 的 延 时 。 

在 该 模型 的 一 个 变种 中 ， 客 户 可 以 将 读 请 求 提交 到 备份 副本 管理 器 ， 这 样 可 减轻 主 副本 管理 器 的 
负载 。 该 系统 不 能 保证 线性 化 ， 但 仍 能 提供 具有 顺序 一 致 性 的 服务 给 客户 。 

被 动 复制 在 Harp 复制 文件 系统 [ Liskov et al. 1991] 中 使 用 。Sun 网 络 信息 服务 (Network Informa- 
tion Service，NIS， 以 前 的 黄页 ) 尽管 采用 了 比 顺 序 一 致 性 要 弱 的 保证 ,但 通过 被 动 复制 获得 了 高 可 用 
性 和 高 性 能 。 在 某 些 情 况 下 ， 更 弱 的 一 致 保证 仍然 可 以 满足 需求 ， 例 如 存储 某 些 用 于 系统 管理 的 记录 。 
复制 的 数据 在 一 个 主 服务 器 上 被 更 新 并 从 主 服务 器 以 一 对 一 的 方式 〈 而 不 是 组 ) 传播 到 从 服务 器 。 客 
户 通过 和 主 或 从 服务 器 通信 以 获得 信息 。 但 在 NIS 中 ,客户 不 可 以 请 求 更 新 ， 更 新 仅 针对 主 服务 器 的 
文件 进行 。 


18. 3.2 ”主动 复制 


在 用 于 容错 的 主动 复制 模型 中 (参见 图 18-4) ， 副 本 管理 器 是 一 个 状态 机 ， 其 中 每 个 副本 管理 器 
充当 同等 的 角色 并 被 组 织 成 一 个 组 。 前 端 将 它们 的 消息 组 播 到 副本 管理 器 组 ， 并 且 所 有 的 副本 管理 器 
按 独立 但 相同 的 方式 来 处 理 请 求 并 给 出 应 答 。 任 何 一 个 副本 管理 器 的 崩溃 都 不 会 影响 服务 的 性 能 ， 因 
为 剩 下 的 副本 管理 器 能 继续 以 正常 的 方式 响应 。 我 们 将 看 到 ， 主 动 复制 能 容忍 拜占庭 故障 ， 因 为 前 端 
可 以 收集 并 比较 收 到 的 应 答 。 





图 18-4 ”主动 复制 


对 于 主动 复制 ， 当 客户 请 求 一 个 操作 时 ， 事 件 顺序 如 下 : 

1) 请 求 : 前 端 给 请 求 加 上 一 个 唯一 标识 符 并 将 其 组 播 到 副本 管理 器 组 ， 这 里 使 用 一 个 全 序 的 、 可 
靠 的 组 播 原 语 。 假 设 在 最 坏 的 情况 下 ， 前 端 会 由 于 骨 演 而 出 现 故 谭 。 前 端 在 收 到 应 答 之 前 不 会 发 送 新 
的 请 求 。 
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2) 协调 : 组 通信 系统 以 同样 的 次 序 (EF) 将 请 求 传递 到 每 个 正确 的 副本 管理 器 。 

3) 执行 : 每 个 副本 管理 器 执行 请 求 。 由 于 它们 是 状态 机 ， 并 且 请 求 以 相同 的 全 排序 方式 传递 ， 因 
此 正确 的 副本 管理 器 以 相同 的 方式 处 理 请 求 。 请 求 的 应 答 包 括 客户 的 唯一 请 求 标识 

4) 协定 : 鉴于 组 播 的 传递 语义 ， 不 需要 该 阶段 。 

5) 响应 ; 每 个 副本 管理 器 将 它 的 应 答 送 往 前 端 ， 前 端 收 到 应 答 的 数量 取决 于 故障 模型 的 假设 和 组 
播 算法 。 例 如 ， 如 果 目 标 是 只 容忍 崩溃 故障 并 且 组 播 满足 统一 协定 和 排序 性 质 ， 那 么 前 端 可 将 第 一 个 
应 答 返回 给 客户 ， 并 丢弃 其 他 应 答 。( 通 过 查看 应 答 中 的 标识 符 ， 前 端 能 将 这 些 应 答 与 其 他 请 求 的 应 
区 分 开 来 。) 

这 个 系统 具有 顺序 一 致 性 。 所 有 正确 的 副本 管理 器 处 理 同样 次 序 的 请 求 。 组 播 的 可 舍 性 保证 每 一 
个 正确 的 副本 管理 器 处 理 同 样 的 请 求 集合 ， 全 序 保证 以 同样 的 顺序 处 理 它们 。 因 为 它们 是 状态 机 ， 所 
以 在 每 一 个 请 求 后 ， 它 们 都 会 到 达 同 一 个 状态 。 每 个 前 端的 请 求 以 FIFO 的 顺序 进行 处 理 〈 因 为 前 端 在 
发 出 下 一 个 请 求 前 会 等 待 应 答 ) ， 这 和 “程序 的 顺序 ”一 样 ， 从 而 保证 了 顺序 一 致 性 。 

如 果 客 户 在 等 待 它们 请 求 的 应 答 时 并 不 和 其 他 客户 通信 ， 那么 它们 的 请 求 按 发 出 在 先 顺 序 处 理 。 
如 果 客 户 是 多 线程 的 ， 并 且 在 等 待 服务 响应 时 和 其 他 的 客户 相互 通信 ， 那 么 为 了 确保 请 求 以 发 生 在 先 
次 序 处 理 ， 我 们 必须 将 组 播 替 换 为 既是 因果 序 又 是 全 序 的 传播 方法 。 

主动 复制 系统 并 不 具有 线性 化 能 力 ， 这 是 因为 副本 管理 器 处 理 请 求 的 全 排序 未 必 和 客 户 发 出 这 些 
请 求 的 实时 次 序 相同 。Schneider [1990] 阐述 了 在 有 大 致 同 步 时 钟 的 同步 系统 中 ， 副 本 管理 器 处 理 请 
求 的 全 排序 能 够 根据 前 端 为 请 求 提供 的 物理 时 间 戳 顺序 来 实现 。 因 为 时 间 惟 是 不 精确 的 ， 所 以 不 能 保 
证 线性 化 ， 但 能 够 保证 大 致 上 一 致 。 

有 关 主 动 复 制 的 讨论 ”我 们 假设 存在 保证 全 序 和 可 靠 组 播 的 解决 方案 。 就 像 第 15 章 指 出 的 ， 解 决 
了 可 靠 性 和 全 序 的 组 播 等 价 于 解决 了 共识 。 解 决 共识 又 要 求 系统 是 同步 的 ， 或 者 使 用 了 一 种 技术 (如 
采用 故障 检测 器 ) 来 绕 过 Fischer 等 人 [1985] 获得 的 理论 上 的 不 可 能 性 。 

某 些 共识 的 解决 方案 ， 像 Canetti 和 Rabin 的 方法 [1993] ， 可 以 在 有 和 拜占庭 故障 的 情况 下 工作 。 给 
定 这 样 的 一 个 解决 方案 ， 因 此 也 是 一 个 提供 全 序 和 可 靠 组 播 的 解决 方案 ,那么 主动 复制 系统 就 能 够 屏 
蔽 至 多 /个 拜占庭 故障 ， 只 要 服务 包含 至 少 + !1 个 副本 管理 器 。 每 个 前 端 一 直 等 待 到 它 收集 到 ,+ 1 
个 相同 的 应 答 才 将 应 答 返 回 给 用 户 。 它 丢弃 对 同一 请 求 的 其 他 应 答 。 为 了 确定 哪个 应 答 和 哪个 请 求 相 
联系 〈 假 定 有 拜占庭 故障 ) ， 我 们 要 求 副 本 管理 器 对 它们 的 应 答 进行 数字 签名 。 

可 以 将 我 们 描述 的 系统 进行 适当 放宽 。 首 先 我 们 已 经 假定 所 有 对 于 共享 复制 对 象 的 更 新 必须 以 同 
样 的 次 序 发 生 。 然 而 ， 在 实际 中 一 些 操作 是 可 交换 的 ， 即 两 个 操作 以 o; o 的 顺序 执行 和 以 相反 的 顺 
序 o; 0, 的 执行 效果 是 一 样 的 。 例 如 ，( 来 自 不 同 客 户 的 ) 任何 两 个 只 读 操 作 是 可 交换 的 ; 任何 两 个 
非 读 操 作 ， 若 更 新 不 同 的 对 象 ， 也 是 可 交换 的 。 主 动 复制 系统 需要 使 用 交换 性 的 知识 来 避免 将 所 有 请 
求 排序 的 代价 。 我 们 在 第 15 章 已 指出 ， 一 些 系 统 已 经 采用 了 应 用 特定 的 组 播 排序 语义 [Cheriton and 
Skeen 1993, Pedone and Schiper 1999 ] 。 

最 后 ， 前 端 可 以 只 发 送 只 读 请 求 到 某 个 副本 管理 器 。 这 样 ， 系 统 丧 失 了 与 组 播 请 求 有 关 的 容错 ， 
但 是 服务 仍然 是 顺序 一 臻 的。 此外， 在 这 种 情况 下 ， 前 端 可 非常 容易 地 屏蔽 副本 管理 器 的 故障 ， 仅 仅 
需要 将 这 个 只 读 请 求 发 送 到 另 一 个 副本 管理 器 。 


18.4 高 可 用 服务 的 实例 研究 ， 闲聊 体系 结构 、Bayou 和 Coda 


本 节 考 虑 如 何 利用 复制 技术 来 获得 服务 的 高 可 用 性 。 我 们 现在 的 重点 是 使 客户 在 合理 的 响应 时 间 
内 访问 服务 一 一 即使 某 些 结果 没有 遵守 顺序 一 致 性 。 例 如 ， 本 章 开头 所 说 的 火车 上 的 用 户 如 果 在 断 链 
时 能 继续 工作 ， 那 么 他 们 会 愿意 应 对 数据 副本 (例如 日 记 ) 间 暂 时 的 不 一 致 ， 并 在 以 后 加 以 修正 。 

在 18.3 节 中 我 们 看 到 ， 容 错 系 统 用 一 种 “及 时 ”的 方式 将 更 新 传播 到 副本 管理 器 ， 只 要 可 能 ， 所 
有 正确 的 副本 管理 器 都 收 到 更 新 ， 并 在 将 控制 传递 回 客户 以 前 达成 一 致 。 这 种 方式 并 不 适合 高 可 用 操 
作 。 反 之 ， 系 统 应 该 通过 使 用 最 小 的 与 客户 连接 的 副本 管理 器 集合 ， 提 供 一 个 可 接受 级 别 的 服务 。 当 
副本 管理 器 协调 它们 的 动作 时 ， 应 该 尽量 减少 客户 的 等 待 时 间 。 较 弱 程 度 的 一 致 性 通常 要 求 较 少 的 协 
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定 ， 这 使 得 共享 数据 的 可 用 性 提高 。 
下 面 查 看 三 个 提供 高 可 用 服务 的 系统 的 设计 : 闲聊 体系 结构 、Bayou 和 Coda, 


18.4.1 闲聊 体系 结构 


Ladin 等 [1992] 开发 了 闲聊 体系 结构 ， 用 它 作 为 实现 高 可 用 性 服务 的 框架 ， 具 体 实现 方式 是 复制 
数据 到 需要 这 些 数据 的 客户 组 的 邻近 点 。 它 的 名 字 就 反映 了 这 样 的 一 个 事实 : 副本 管理 器 定期 通过 闲 
聊 消息 来 传递 客户 的 更 新 〈 见 图 18-5) 。 这 种 体系 结构 是 基于 Fisher 和 Michael [1982], Wuu 和 Bern- 
stein [1984] 早期 在 数据 库 方面 的 工作 。 它 可 以 用 来 创建 一 个 高 可 用 性 的 电子 公告 板 或 日 记 服 务 。 


闲聊 服务 提供 两 种 基本 操作 : 查询 和 和 更新。 查询 服务 
是 只 读 操 作 ， 更 新 用 来 变更 状态 但 却 不 读 取 状 态 
(第 二 种 操作 比 我 们 已 经 在 使 用 的 更 新 具有 更 严格 的 (a 
定义 ) 。 一 个 关键 的 特征 是 前 端 发 送 查询 和 更 新 给 它 





们 选择 的 副本 管理 器 ， 只 要 这 个 副本 管理 器 可 用 并 6-60 
能 提供 合理 响应 时 间 。 尽 管 某 个 副本 管理 器 可 能 暂 
时 不 能 和 其 他 副本 管理 器 通信 ， 系统 仍然 做 出 以 下 Query ,prev Val,new Update, prev Update id 
两 个 保证 : 

随 着 时 间 推 移 ， 每 个 用 户 总 能 获得 一 致 服务 : 为 
了 回答 某 个 查询 ， 副 本 管理 器 提供 给 一 个 客户 的 数 Query 
据 能 反映 迄今 为 止 客户 已 经 观测 到 的 更 新 。 即 使 用 
户 在 不 同 的 时 间 和 不 同 的 副本 管理 器 通信 ， 结 果 也 
是 这 样 。 因 此 从 原理 上 可 能 与 一 个 副本 管理 器 通信 ， 
而 这 个 副本 管理 器 比 以 前 使 用 的 “稍微 落后 一 些 ”。 

副本 之 间 松 弛 的 一 致 性 : 所 有 的 副本 管理 器 最 
终 将 收 到 所 有 的 更 新 。 它 们 根据 排序 保证 来 执行 这 些 更 新 ， 排 序 保证 使 副本 足够 相似 从 而 满足 应 用 的 
要 求 。 值 得 注意 的 是 ， 尽 管 闲 聊 体系 结构 可 以 用 来 获得 顺序 一 致 性 ， 但 它 主要 是 用 来 保证 较 弱 的 一 臻 
性 。 尽 管 副 本 包含 同样 的 更 新 集 ， 但 两 个 客户 仍 会 观察 到 不 同 的 副本 ， 客 户 也 可 能 观察 到 过 时 的 数据 。 

为 了 支持 松弛 的 一 致 性 ， 闲 聊 体 系 结构 支持 更 新 的 因果 序 ， 其 定义 见 15. 2. 1 节 。 它 同样 支持 更 强 
的 排序 保证 : 强制 序 〈 全 序 和 因果 序 ) 和 即时 序 。 即 时 序 的 更 新 是 在 所 有 副本 管理 器 上 按 一 致 的 次 序 
执行 任何 更 新 ， 不 管 这 些 更 新 的 次 序 被 指定 为 因果 的 、 强 制 的 还 是 即时 的 。 如 果 一 个 强制 序 的 更 新 和 
一 个 因果 序 的 更 新 之 间 不 存在 发 生 在 先 关系 时 ， 它 们 在 不 同 副本 管理 器 上 的 执行 次 序 可 能 不 同 ， 因 此 
除了 提供 强制 序 外 ， 还 需要 提供 即时 序 。 

具体 使 用 哪 种 排序 由 应 用 的 设计 者 决定 ， 它 反映 了 在 一 致 性 和 操作 代价 之 间 的 一 种 取舍 。 因 果 更 
新 的 代价 远 远 低 于 其 他 排序 的 更 新 ， 只 要 可 能 ,一般 都 使 用 它 。 注 意 ,任意 一 个 副本 管理 器 都 能 满足 
的 查询 相对 于 其 他 操作 永远 以 因果 序 执行 。 

考虑 一 个 电子 公告 板 的 应 用 ， 其 中 一 个 客户 程序 〈 它 结合 了 前 端 ) 在 用 户 的 计算 机 上 执行 ， 并 和 
一 个 本 地 副本 管理 器 通信 。 客 户 程序 将 用 户 的 投稿 发 送 给 本 地 副本 管理 器 ， 这 个 副本 管理 器 在 闲聊 消 
息 中 将 新 投稿 发 送 给 其 他 的 副本 管理 器 。 电 子 公 告 板 的 读者 看 到 的 是 略微 过 时 的 投稿 列表 ， 但 是 如 果 
延 时 是 以 分 和 小 时 计 而 不 是 以 天 计 的 话 ， 一 般 影响 不 大 。 因 果 序 可 用 于 投稿 项 。 这 意味 着 一 般 投稿 在 
不 同 的 副本 管理 器 将 以 不 同 的 次 序 出 现 。 但 是 ， 一 个 主题 为 “回复 : 橘子 ”的 投稿 总 是 比 它 引用 的 标 
题 为 “橘子 ”的 消息 晚 发 送 。 强 制 序 能 够 用 来 在 电子 公告 板 中 加 入 一 个 新 的 订阅 者 ， 这 样 用 户 加 人 记 
录 的 顺序 是 无 二 义 的 。 即 时 序 可 以 用 来 从 电子 公告 板 中 的 订阅 列表 中 删除 一 个 用 户 ， 这 样 一 旦 删除 操 
作 返 回 ， 那 个 用 户 就 不 会 从 一 个 响应 迟缓 的 副本 管理 器 获得 消息 了 。 

一 个 闲聊 服务 的 前 端 通过 使 用 应 用 特定 的 API 来 处 理 客户 操作 ， 并 将 其 转 为 闲聊 操作 。 通 常 ， 客 
户 操作 可 以 是 读 取 复 制 的 状态 、 修 改 复制 的 状态 或 两 者 都 有 。 由 于 在 闲聊 中 ， 更 新 操作 只 是 修改 状态 ， 
因此 前 端 会 把 一 个 读 取 和 修改 都 有 的 操作 转换 为 分 离 的 查询 操作 和 更 新 操作 。 








图 18-5 闲聊 服务 中 的 查询 和 更 新 操作 
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在 我 们 的 基本 复制 模型 中 ， 闲 聊 服 务 处 理 查询 和 更 新 操作 的 大 致 流程 如 下 : 

1) HR: 前 端 通常 只 发 送 请 求 到 一 个 副本 管理 器 。 然 而 ， 当 它 使 用 的 副本 管理 器 出 现 故障 或 不 可 
达 时 ， 前 端 将 和 另 一 个 副本 管理 器 通信 。 当 正常 的 那个 副本 管理 器 负担 过 重 时 ， 前 端 也 将 尝试 使 用 其 
他 的 副本 管理 器 。 因 此 ， 前 端 ， 也 就 是 客户 ， 可 能 被 阻塞 在 一 个 查询 操作 上 。 另 一 方面 ， 在 默认 情况 
下 ， 更 新 操作 一 旦 被 传递 给 前 端 ， 就 可 立即 返回 给 客户 ; 前 端 再 在 后 台 传播 这 个 操作 。 另 一 种 方法 是 ， 
为 了 提高 可 靠 性 ， 客 户 可 以 被 阻塞 到 更 新 已 经 传 给 了 /+ 1 个 副本 管理 器 后 才 继 续 执行 ， 这 样 就 算 J 个 
副本 管理 器 出 现 故 障 ， 操 作 也 将 传递 到 任何 位 置 。 

2) 对 更 新 操作 的 响应 : 如 果 请 求 是 一 个 更 新 ， 那么 副本 管理 器 只 要 一 收 到 更 新 就 立即 回答 。 

3) 协调 : 收 到 请 求 的 副本 管理 器 并 不 处 理 操 作 ， 直 到 它 能 根据 所 要 求 的 次 序 约束 处 理 请 求 为 止 。 
这 可 能 涉及 接收 其 他 的 副本 管理 器 以 闲聊 消息 形式 发 送 的 更 新 。 各 副本 管理 器 之 间 不 存在 其 他 方式 的 
协调 。 

4) 执行 : 副本 管理 器 执行 请 求 。 

5) 对 查询 操作 的 响应 : 如 果 请 求 是 一 个 查询 操作 ， 副 本 管理 器 将 在 此 给 出 回答 。 

6) WÈ: 副本 管理 器 通过 交换 闲聊 消息 进行 相互 更 新 ， 这 些 闲聊 消息 包含 了 大 多 数 最 近 收 到 的 更 
新 。 副 本 管理 器 相互 之 间 以 惰性 方式 更 新 ， 这 是 因为 闲聊 消息 只 是 偶尔 进行 交换 。 在 收集 到 若干 更 新 
之 后 ,或 者 当 某 个 副本 管理 器 发 现 它 丢失 了 一 个 发 送 到 其 他 副本 管理 器 的 更 新 ， 而 该 管理 器 在 处 理 新 
请 求 时 又 需要 这 个 更 新 时 ， 副 本 管理 器 才 会 交换 闲聊 消息 。 

下 面 将 更 详细 地 描述 闲聊 系统 。 我 们 先 考虑 前 端 与 副本 管理 器 为 了 维持 更 新 排序 保证 而 维护 的 时 
间 稚 和 数据 结构 ， 接 着 ， 在 此 基础 上 ， 解 释 副 本 管理 器 如 何 处 理 查询 和 更 新 。 维 持 因 果 更 新 的 向 量 时 
间 稚 的 处 理 和 15. 4. 3 节 的 因果 组 播 算法 相似 。 

前 端的 版 本 时 间 戳 ”为 了 控制 操作 处 理 的 次 序 ， 每 个 前 端 维持 了 一 个 向 量 时 间 惟 ， 它 用 来 反映 前 
端 访问 的 〈 因 而 也 是 客户 访问 的 ) 最 新 数据 值 的 版 本 。 该 时 间 稚 〈 即 图 18-5 中 的 prev) 包含 了 每 个 副 
本 管理 器 的 条 目 。 前 端 将 其 放 人 每 一 个 请 求 消息 中 ， 与 更 新 或 查询 操作 的 描述 一 起 发 送 给 副本 管理 器 。 
当 副 本 管理 器 返回 一 个 值 作为 查询 操作 的 结果 时 ， 副 本 管理 器 提供 一 个 新 的 向 量 时 间 蕉 〈 图 18-5 中 的 
new) ， 因 为 自从 前 一 个 操作 后 副本 可 能 已 经 更 新 了 。 类 似 地 ， 更 新 操作 也 返回 一 个 对 更 新 而 言 唯一 的 
向 量 时 间 稚 (Æ 18-5 中 的 Updateld) 。 每 一 个 返回 的 时 间 稚 和 前 端 完 前 的 时 间 蕉 合并 ， 用 于 记录 已 经 
被 客户 观察 到 的 复制 数据 的 版 本 (参见 14.4 节 的 向 量 时 间 服务 
BAHIA XL) 。 

客户 通过 访问 相同 的 闲聊 服务 和 相互 直接 通信 来 交换 
数据 。 由 于 客户 到 客户 的 通信 也 能 导致 施加 到 服务 上 的 操 
作 之 间 的 因果 关系 ， 因 此 交换 数据 同样 也 要 通过 前 端 。 这 
样 ， 前 端 可 以 顺便 将 它们 的 向 量 时 间 蕉 发 送 给 其 他 的 客户 。 
接收 者 将 它们 和 自己 的 向 量 时 间 惟 合并， 这 样 可 正确 地 推 
理 出 因果 次 序 。 这 种 情况 如 图 18-6 所 示 。 时 间 

副本 管理 器 状态 ”在 不 考虑 应 用 时 ,一 个 副本 管理 器 
包含 的 主要 状态 组 件 如 下 (参见 图 18-7) : 


1) 值 : 这 是 由 副本 管理 器 维护 的 应 用 状态 的 值 。 每 个 和 客户 $% 





(wf E o) 





副本 管理 器 是 一 个 状态 机 ， 它 起 始 于 一 个 特定 的 初始 值 ， 
此 后 ， 它 的 状态 完全 是 施加 更 新 操作 的 结果 。 

2) WARR: 这 是 代表 反映 在 值 中 的 更 新 的 向 量 时 图 18-6 当 客 户 直接 通信 时 前 端 
间 截 。 该 时 间 稚 包含 了 每 个 副本 管理 器 的 条 目 。 每 当 在 值 传播 它们 的 时 间 戳 
上 执行 更 新 操作 时 ， 它 就 被 更 新 。 

3) 更 新 日 志 : 所 有 的 更 新 操作 只 要 被 收 到 了 ， 就 将 记录 在 这 个 日 志 中 。 一 个 副本 管理 器 在 日 志 中 
记录 更 新 有 两 个 理由 。 第 一 个 理由 是 因为 更 新 操作 不 稳定 ， 副 本 管理 器 不 能 进行 更 新 操作 。 一 个 稳定 
的 更 新 操作 是 指 可 以 在 它 的 排序 保证 (因果 、 强 制 和 即时 ) 下 一 致 地 执行 的 更 新 操作 。 不 稳定 的 更 新 
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必须 被 保留 而 不 处 理 。 第 二 个 将 更 新 保留 在 日 志 中 的 理由 是 ， 即 使 更 新 是 稳定 的 并 且 已 经 在 值 上 执行 ， 


副本 管理 器 并 没有 收 到 更 新 已 被 其 他 所 有 副本 管理 器 收 到 的 确认 。 与 此 同时 ， 它 以 闲聊 消息 形式 传播 


更 新 。 

其 他 的 副本 管理 器 

一 人 | 副本 时 间 惟 | ”副本 日 志 
闲聊 消息 Ki a es 
ar 副本 管理 器 
HRK 
PESEN ER 
I wa TT ee | « | 
~、 执行 操作 表 






a — 
—~ 


we — 


1 EA 一 
el OperationID 
FE 





图 18-7 ”闲聊 的 副本 管理 器 及 其 主要 状态 组 件 


4) AAR MA: 这 个 向 量 时 间 稚 代表 那些 已 经 被 副本 管理 器 接收 到 的 更 新 ， 即 已 放 在 管理 器 日 志 
中 的 更 新 。 一 般 情 况 下 ， 它 和 值 的 时 间 惟 不同， 因为 并 不 是 所 有 在 日 志 中 的 更 新 都 是 稳定 的 。 

5) 已 执行 操作 表 : 同样 的 更 新 可 以 从 前 端 ， 也 可 以 从 其 他 的 副本 管理 器 通过 闲聊 消息 发 送 到 一 个 
给 定 的 副本 管理 器 。 为 了 防止 一 个 更 新 操作 被 执行 两 次 ， 需 要 维护 一 个 “已 执行 操作 ” 表 ， 它 包含 已 
经 执行 的 更 新 的 唯一 标识 符 ， 这 个 唯一 标识 符 由 前 端 提 供 。 副 本 管理 器 将 更 新 加 入 日 志 前 ， 先 检查 这 
个 表 。 

6) HARA: 这 个 表 为 每 个 副本 管理 器 包含 一 个 向 量 时 间 截 ， 这 些 时 间 戳 来 自 闲聊 消息 。 副 本 管 
理 器 使 用 此 表 来 确定 何 时 一 个 更 新 已 经 应 用 于 所 有 的 副本 管理 器 。 

副本 管理 器 被 编号 为 0，1，2,，…， 并 且 由 第 i 个 副本 管理 髓 掌握 的 向 量 时 间 惟 中 的 第 i 个 元 素 对 
应 于 i 从 前 端 收 到 的 更 新 的 数量 ， 第 7 个 元素 CA) 等 于 j 收 到 的 并 传播 给 i 的 更 新 的 数量 。 例 如 ， 在 
有 三 个 副本 管理 器 的 闲聊 系统 中 ， 管 理 器 0 上 的 一 个 值 时 间 惟 (2, 4, 5) 代表 着 那里 的 值 反映 这 样 的 
事实 : 从 管理 器 0 的 前 端 接收 两 个 更 新 ， 从 管理 器 1 接收 到 头 4 个 更 新 ， 从 管理 器 2 接收 到 头 5 个 更 
新 。 下 面 将 详细 地 描述 如 何 使 用 时 间 戳 来 保证 次 序 。 

查询 操作 ”最 简单 的 操作 是 查询 操作 。 一 个 查询 请 求 g 包含 操作 的 描述 和 一 个 由 前 端 发 送 的 时 间 
Big. pre， 后 者 反映 了 前 端 已 读 到 或 作为 更 新 已 提交 的 值 的 最 新 版 本 。 因 此 ， 副 本 管理 器 的 任务 是 返回 
一 个 至 少 与 时 间 惟 接近 的 值 。 如 果 valueTS 是 副本 管理 器 的 值 时 间 戳 ， 且 下 面条 件 满足 ， 那 么 4 能 够 应 
用 到 副本 管理 器 的 值 上 : 

q.pre<valutTS 

副本 管理 器 将 9 放 到 将 要 执行 的 操作 表 中 〈 即 一 个 保留 队列 ) ， 直 到 这 个 条 件 满足 为 止 。 它 能 等 待 
丢失 的 更 新 (丢失 的 更 新 最 终 将 通过 闲聊 消息 到 达 ) ， 也 能 从 相关 的 副本 管理 器 获取 更 新 。 例 如 ， 如 
果 valueTS 是 (2, 5, 5) HH q pre 是 (2，4，6) ， 可 以 看 出 ， 只 有 一 个 更 新 丢失 了 ， 即 从 丢失 了 来 
自 副本 管理 器 2 的 一 个 更 新 (提交 g 的 前 端 必须 与 另 一 个 副本 管理 器 联系 ， 这 个 管理 器 先前 看 见 了 这 
个 更 新 ， 而 原来 的 管理 器 却 没 有 看 见 这 个 更 新 )。 

一 旦 可 以 执行 查询 ， 副 本 管理 器 返回 valueTS 给 前 端 ， 作 为 在 图 18-5 中 显示 的 时 间 惟 new。 前 端 将 
其 和 它 的 时 间 蕉 合并 : frontEndTS; = merge(frontEndTS，new) 。 在 所 举 的 例子 中 ， 查 询 执行 前 ， 前 端 没 
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有 看 到 的 副本 管理 器 1 上 的 更 新 (q pre 是 4 而 副本 管理 器 是 5) 将 反映 在 frontEndTS 的 更 新 中 (也 可 
以 反映 在 返回 的 值 中 ， 这 取决 于 查询 ) 。 

按 因果 次 序 处 理 更 新 前端 提 交 一 个 更 新 请 求 给 一 个 或 更 多 的 副本 管理 器 。 每 一 个 更 新 请 求 u 包 
含 一 个 更 新 的 规约 (包括 它 的 类 型 和 参数 ) u op 、 前 端的 时 间 稚 u prev 和 一 个 前 端 产生 的 唯一 的 标识 
符 u id。 如 果 前 端 发 送 同 样 的 请 求 给 若干 副本 管理 器 ,那么 每 次 在 uw 中 使 用 相同 的 标识 符 一 一 这 样 u 
就 不 会 被 处 理 成 几 个 不 同 的 请 求 而 是 相同 的 请 求 了 。 

当 副 本 管理 器 i 收 到 前 端的 更 新 请 求 时 ， 它 通过 在 已 执行 的 操作 表 和 它 的 日 志 中 的 记录 查找 这 个 
操作 的 标识 符 以 确定 这 个 请 求 是 否 已 被 处 理 。 如 果 查 找到 了 ， 它 将 丢弃 这 个 请 求 ， 否 则 它 将 它 的 复 
制 时 间 蕉 的 第 ;个 元 素 加 1， 以 记录 它 从 前 端 直接 收 到 的 更 新 个 数 。 然 后 ， 副 本 管理 器 给 更 新 请 求 u 
分 配 一 个 唯一 的 向 量 时 间 惟 (下 面 将 给 出 这 个 向 量 的 来 源 ) ， 并 且 将 一 个 更 新 记录 放 署 到 副本 管理 器 
的 日 志 中 。 如 果 拓 是 副本 管理 器 分 配给 更 新 的 唯一 时 间 戳 ， 那 么 更 新 记录 按 如 下 元 组 构建 并 保存 在 

志 中 : 
Ha 1 cord := <i, ts, u.op, u.prev, u.id> 

副本 管理 器 i 将 u prev 的 第 个 元 素 替 换 为 它 的 副本 时 间 戳 的 第 站 个 元 素 〈 这 个 元 素 刚 刚 加 1), 
完成 从 u prev 中 生成 拉 时 间 惟 的 工作 ， 这 样 能 使 # 是 唯一 的 ， 从 而 保证 所 有 的 系统 组 件 能 正确 地 记录 
而 不 管 它们 是 否 观 察 到 了 更 新 。 时 间 截 # 中 剩 下 的 元 素 从 u prev 中 获取 ， 因 为 正 是 要 用 这 些 从 前 端 送 
来 的 值 决 定 何 时 更 新 是 稳定 的 。 副 本 管理 器 立刻 将 丘 返 回 给 前 端 ， 前 端 将 其 与 它 的 时 间 惟 合并。 注意 ， 
前 端 可 以 提交 它 的 更 新 给 多 个 副本 管理 器 ， 并 且 作 为 回报 收 到 许多 不 同 的 时 间 惟 ， 所 有 这 些 时 间 巷 都 
被 合并 人 它 的 时 间 惟 。 

更 新 请 求 u 的 稳定 性 条 件 类 似 于 下 面 的 查询 : 

u.prev < valueTS 

这 个 条 件 说 明了 这 个 更 新 依靠 的 所 有 的 更 新 〈 即 所 有 由 发 起 更 新 的 前 端 观察 到 的 更 新 ) 已 经 执行 
了 。 如 果 在 更 新 提交 时 这 个 条 件 不 满足 ， 它 将 在 闲聊 消息 到 达 时 重新 检查 。 对 于 一 个 更 新 记录 ">， 当 稳 
定 条 件 已 经 满足 时 ， 副 本 管理 器 将 更 新 值 、 值 的 时 间 戳 和 已 执行 操作 表 (名 为 executed) : 


value := apply(value, r.u.op) 
valueTS := merge(valueTS, r.ts) 
executed := executed U {r.u.id} 


在 这 三 个 语句 中 ， 第 一 个 语句 表示 更 新 值 ， 第 二 个 语句 将 更 新 的 时 间 惟 和 那个 值 的 时 间 惟 合并， 
在 第 三 个 语句 中 ， 更 新 操作 的 标识 符 被 加 入 已 执行 操作 的 标识 符 集合 中 一 一 这 用 来 检查 重复 的 操作 
请 求 。 

强制 的 和 即时 的 更 新 操作 ”强制 更 新 和 立即 更 新 需要 特殊 处 理 。 强 制 更 新 是 全 序 加 因果 序 。 给 强 
制 更 新 排序 的 基本 方法 是 在 与 更 新 相关 的 时 间 惟 后 加 入 一 个 唯一 的 序号 ， 并 以 这 个 序号 的 次 序 来 处 理 
它们 。 像 第 15 章 所 解释 的 ， 产 生 序号 的 一 般 方法 是 使 用 一 个 顺序 者 进程 。 但 是 ， 在 一 个 高 可 用 服务 的 
环境 中 ， 依 赖 某 个 进程 是 不 恰当 的 。 解 决 方法 是 指派 一 个 所 谓 的 主 副本 管理 器 作为 顺序 者 ， 当 主 副本 
管理 器 出 故障 时 ， 可 以 选举 另 一 个 副本 管理 器 替代 成 为 顺序 者 。 这 就 要 求 对 于 大 多 数 的 副本 管理 器 
(包括 主 副本 管理 器 ) 在 其 操作 被 执行 前 ， 记 录 下 哪个 更 新 是 下 一 个 操作 。 接 着 ， 只 要 大 多 数 副 本 管 
理 器 未 出 现 故 障 ， 就 能 从 存活 的 副本 管理 器 中 选 出 新 的 主 副本 管理 器 ， 从 而 实现 这 个 排序 决定 。 

相对 于 强制 更 新 ， 即 时 更 新 是 通过 使 用 主 副本 管理 器 来 对 更 新 序列 进行 排序 。 主 副本 管理 器 也 决 
定 了 哪个 因果 更 新 被 认为 在 一 个 即时 更 新 之 前 。 为 了 达成 协定 ， 它 通过 与 其 他 副本 管理 器 的 通信 和 同 
步 来 完成 这 工作 ， 进 一 步 的 细节 见 Ladin 等 的 文章 [1992]. 

闲聊 消息 ”副本 管理 器 可 以 发 送 包 含 一 个 或 多 个 更 新 信息 的 闲聊 消息 ， 以 便 使 其 他 副本 管理 器 的 
状态 更 新 成 最 新 的 。 副 本 管理 器 使 用 它 的 时 间 蕉 表 里 的 记录 来 估计 其 他 副本 管理 器 还 没有 收 到 哪些 更 
新 (由 于 副本 管理 器 可 能 已 经 收 到 了 更 多 的 更 新 ， 因 此 这 只 是 个 估计 ) 。 

源 副本 管理 器 发 送 的 一 个 闲聊 消息 m 包含 两 项 : 日 志 m. log 和 副本 时 间 惟 于 站 (IÆ 18-7). W 
到 闲聊 消息 的 副本 管理 器 有 下 面 三 项 主要 任务 : 

。 将 到 达 的 日 志和 它 自 己 的 日 志 合 并 (n 可 能 包含 接收 者 先前 没 看 到 的 更 新 )。 
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。 执行 任何 以 前 没有 执行 并 已 经 稳定 了 的 更 新 。( 在 到 达 的 消息 日 志 中 的 稳定 的 更 新 又 可 能 将 许 
多 悬而未决 的 更 新 变 得 稳定 。) 

。 当知 道 更 新 已 执行 并 且 已 经 没有 被 重复 执行 的 危险 时 ， 删 除 日 志和 已 执行 操作 表 中 的 记录 。 从 
日 志和 已 执行 操作 表 中 删除 元 余 条 目 非 常 重要 ， 因 为 ， 如 果 不 这 样 做 ， 它们 将 无 限制 地 增长 。 

将 包含 在 闲聊 消息 中 的 日 志和 接收 者 的 日 志 进 行 合并 是 非常 简单 的 。 设 replicasTS 表示 接收 者 的 副 
WHER, m. log 中 的 记录 7 被 加 到 接收 者 的 日 志 中 ， 除 非 "> 6 和 replicsTS 一 一 此 时 ， 它 已 存在 于 日 志 
中 或 已 经 被 执行 且 被 丢弃 了 。 . 

RAEE KARM E RKR RA E A i TH] BK replicaTS 合并 ， 以 便 与 日 志 的 增加 相 

Be ea S := merge(replicaTS, m.ts) 

当 新 的 更 新 记录 被 并 人 日 志 时 ， 副 本 管理 器 将 确定 日 志 中 所 有 已 稳定 的 更 新 集合 9S。 这 些 更 新 可 
以 执行 ， 但 必须 仔细 考虑 它们 执行 的 次 序 ， 以 维持 发 生 在 先 关系 。 根 据 向 量 时 间 戳 间 的 偏 译 “ 生 ”， 
副本 管理 器 对 集合 中 的 更 新 进行 排序 ， 然 后 它 以 这 种 次 序 来 执行 更 新 ， 即 当 且 仅 当 没有 se 5 满足 
s. prev <r. prev H}, FẸ reso 

副本 管理 器 然后 在 日 志 中 查找 可 竺 弃 的 条 目 。 如 果 闲 聊 消 息 由 副本 管理 器 / 发 送 并 且 tableTS 是 这 
个 副本 管理 器 的 副本 时 间 截 表 ， 那 么 副本 管理 器 设置 

fabjeTS[ 门 := m.ts 

对 于 任何 一 个 副本 管理 器 都 已 收 到 的 更 新 ， 该 副本 管理 器 现在 能 够 丢弃 日 志 中 的 记录 r。 也 就 是 
Di, WR c 是 创建 这 个 记录 的 副本 管理 器 ， 那 么 我 们 要 求 所 有 的 副本 管理 器 i: 

tableTS{il[c] > r.ts[c] 

闲聊 体系 结构 同样 定义 了 副本 管理 器 如 何 删除 已 执行 操作 表 中 的 条 目 。 值 得 指出 的 是 ， 操 作 不 能 
过 时 删除， 否则 一 个 延迟 过 大 的 操作 将 被 错误 地 执行 两 次 。Ladin 等 人 【1992] 提供 了 该 方案 的 细节 。 
本 质 上 ， 前 端 会 对 更 新 的 应 答 发 出 确认 ， 所 以 副本 管理 器 知道 前 端 何 时 会 停止 发 送 更 新 。 副 本 管理 器 
从 这 点 可 以 知道 最 大 的 更 新 传播 延 时 。 

更 新 传播 ”闲聊 体系 结构 并 不 指定 何 时 副本 管理 器 相互 交换 闲聊 消息 ， 也 不 指定 某 个 副本 管理 器 
怎样 决定 闲聊 消息 发 到 何 处 。 如 果 所 有 的 副本 管理 器 要 在 一 个 可 接收 的 时 间 内 收 到 所 有 的 更 新 ， 必 须 
要 有 一 个 健壮 的 更 新 传播 策略 。 

所 有 副本 管理 器 收 到 某 个 给 定 更 新 所 花费 的 时 间 取决 于 三 个 因素 : 

。 网 络 分 区 的 频率 和 持续 期 间 。 

。 副本 管理 器 发 送 闲聊 消息 的 频率 。 

。 选择 一 个 副本 管理 器 并 与 之 交换 闲聊 的 策略 。 

第 一 个 因素 超出 了 系统 控制 的 范围 ， 尽 管用 户 可 以 在 一 定 程 度 上 决定 他 们 离线 工作 的 频率 。 

合适 的 闲聊 交换 频率 可 以 由 应 用 决定 。 考 虑 一 个 由 许多 站 点 共享 的 电子 公告 板 系统 。 每 个 条 目 看 
来 没 必要 立刻 分 派 到 所 有 的 站 点 。 但 是 如 果 闲 聊 要 经 过 很 长 的 时 间 才 交换 一 次 ， 例 如 一 天 一 次 ， 那 么 
会 如 何 呢 ?如 果 只 使 用 因果 更 新 ， 那么 很 可 能 ， 每 一 个 站 点 上 的 客户 在 同一 个 电子 公告 板 上 有 它们 自 
己 的 一 致 的 讨论 ， 而 不 考虑 其 他 站 点 上 的 讨论 。 然 后 在 深夜 ， 所 有 的 讨论 将 被 合并 。 但 是 当 要 考虑 其 
他 人 的 讨论 时 ， 针 对 同一 话题 的 讨论 很 容易 不 一 致 。 在 这 个 例子 中 ,闲聊 交换 的 周期 按 小 时 或 分 钟 计 
将 更 合适 。 

人 们 还 提出 一 些 选 择 合作 者 的 策略 。Golding 和 Long [1993] 在 他 们 的 著作 “基于 时 间 戳 的 反 糖 协 
议 ” (timestamped anti- entropy protocol) 中 使 用 了 一 个 闲聊 风格 的 更 新 传播 机 制 ， 考 虑 了 随机 型 、 确 定 
型 和 拓扑 型 的 策略 。 

随机 型 的 策略 以 随机 的 方式 选择 一 个 合作 者 ， 但 是 使 用 了 加 权 概 率 来 表示 对 一 些 合作 者 的 喜爱 大 
于 另 一 些 合作 者 。 例 如 ， 邻 近 的 合作 者 优 于 远 距 离 的 合作 者 。Golding 和 Long 发 现 ， 这 种 策略 在 模拟 
环境 中 工作 得 非常 好 。 确 定型 的 策略 使 用 副本 管理 器 的 状态 的 一 个 简单 函数 来 选择 合作 者 。 例 如 ,一 





个 副本 管理 器 可 以 检查 它 的 时 间 改 表 ， 选 择 看 上 去 在 它 收 到 的 更 新 中 位 于 最 后 的 那个 副本 管理 器 。 
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拓扑 型 的 策略 将 副本 管理 器 安排 为 一 个 固定 图 。 一 种 可 能 性 是 安排 为 网 格 (mesh): 副本 管理 器 
将 闲聊 消息 发 送 到 它 连 接 到 的 4 个 副本 管理 器 。 另 一 种 方案 是 将 副本 管理 器 组 织 为 一 个 环 ， 每 个 管理 
器 只 将 闲聊 消息 传 给 它 的 邻居 【〈 例 如 ， 以 顺 时 针 方 向 ) ， 这 样 任何 一 个 副本 管理 器 的 更 新 将 遍历 整个 
环 。 还 有 其 他 一 些 可 能 的 拓扑 结构 ， 如 树 。 

这 些 合作 者 选择 策略 必须 权衡 通信 和 量 和 高 传播 延 时 ， 以 及 某 个 故障 影响 其 他 副本 管理 器 的 概率 。 
实际 中 的 选择 取决 于 这 些 因 素 的 相对 重要 性 。 例 如 ， 环 拓扑 将 产生 较 小 的 通信 和 量 ， 但 可 能 造成 高 延 时 ， 
因为 闲聊 消息 通常 要 遍历 若干 个 副本 管理 器 。 而 且 ， 如 果 某 个 副本 管理 器 出 现 故 障 ， 那 么 整个 环 都 不 
能 正常 工作 ， 而 需要 重新 配置 。 比 较 而 言 ， 随 机 型 的 选择 策略 不 易 受 故障 影响 ， 但 它 的 更 新 传播 时 间 
可 能 会 变化 。 

有 关 闲 聊 体系 结构 的 讨论 ”闲聊 体系 结构 的 目标 是 实现 服务 的 高 可 用 性 。 这 个 体系 结构 保证 : BD 
使 客户 落 到 一 个 网 络 分 区 中 ， 只 要 至 少 有 一 个 副本 管理 器 在 这 个 分 区 中 能 工作 ， 该 客户 就 能 继续 获得 
服务 。 但 是 这 种 可 用 性 的 代价 是 实施 松弛 的 一 致 性 保证 。 对 银行 账户 这 样 的 对 象 ， 顺 序 一 致 性 是 必需 
的 ， 闲 聊 体 系 结构 不 会 比 18. 3 节 研 究 的 容错 系统 表现 得 更 好 ， 闲 牙 系 统 仅 在 一 个 主 分 区 中 提供 服务 。 

更 新 传播 的 惰性 方法 使 一 个 基于 闲聊 的 系统 不 适合 接近 实时 的 更 新 复制 ， 例 如 用 户 参加 一 个 “ 实 
时 ”会 议 并 更 新 一 个 共享 文档 。 一 个 基于 组 播 的 系统 更 适合 这 种 情况 。 

闲聊 系统 的 可 伸缩 性 是 另 一 个 问题 。 随 着 副本 管理 器 数量 的 增长 ， 需 要 传递 的 闲聊 消息 的 数量 和 
使 用 的 时 间 稚 的 大 小 也 在 增长 。 在 一 个 客户 进行 查询 时 ，( 在 前 端 和 副本 管理 器 之 间 ) 通常 需要 两 个 
消息 。 如 果 一 个 客户 进行 一 个 因果 序 的 更 新 操作 ， 并 且 尺 个 副本 管理 器 都 在 闲聊 消息 中 收集 C 个 更 
新 ， 那么 交换 的 消息 数量 为 2+ (R-1)/G。 式 中 的 第 一 项 代表 前 端 和 副本 管理 器 之 间 的 通信 次 数 ， 第 
二 项 是 发 送 到 其 他 副本 管理 器 的 闲聊 消息 的 更 新 消息 。 提 高 G6 有 助 于 减少 消息 数量 , 但 它 会 使 传递 延 
时 变 长 ， 因 为 副本 管理 器 在 传播 消息 前 要 等 待 更 多 的 更 新 到 达 。 

为 了 增强 基于 闲聊 的 服务 的 可 伸缩 性 ， 一 个 方法 是 将 大 多 副本 管理 器 设置 为 只 读 的 。 换 言 之 ， 这 
些 副本 管理 器 只 通过 闲聊 消息 进行 更 新 ， 并 不 直接 从 前 端 楼 收 更 新 。 当 更 新 /查询 率 很 小 时 ， 这 是 非常 
有 用 的 。 只 读 副 本 管理 器 可 以 靠近 客户 组 ， 更 新 可 由 相对 少 的 中 央 副 本 管理 器 完成 。 因 为 只 读 副 本 管 
理 器 没有 闲聊 消息 要 传播 ， 所 以 闲聊 流量 会 降低 。 同 时 ， 向 量 时 间 蕉 只 需要 包含 那些 能 更 新 的 副本 管 
理 器 的 条 目 。 


18.4.2 Bayou 系统 和 操作 变换 方法 


Bayou 系统 [Terry et al. 1995, Petersen et al. 1997] 通过 数据 复制 获得 高 可 用 性 ， 但 Bayou 系统 提 
供 比 顺序 一 致 性 更 弱 的 保证 ， 它 类 似 于 闲聊 体系 结构 和 基于 时 间 规 的 反 炉 协议 。 与 那些 系统 类 似 ， 
Bayou 的 副本 管理 器 通过 成 对 地 交换 更 新 来 处 理 变化 的 网 络 连接 ， 设 计 者 也 将 这 种 交换 方式 称 为 反 炉 
协议 。 但 Bayou 采用 了 一 个 非常 不 同 的 方法 ， 因 为 它 能 够 进行 领域 特定 的 冲突 检测 和 冲突 解决 。 

考虑 一 个 离线 工作 时 需要 更 新 日 记 的 用 户 。 如 果 需 要 严格 的 一 致 性 ， 在 闲聊 体系 结构 中 ， 更 新 必 
须 用 强制 的 〈 全 序 ) 操作 执行 。 但 那样 的 话 ， 只 有 主 分 区 中 的 用 户 可 以 更 新 日 记 。 用 户 对 日 记 的 访问 
将 受 限 一 一 不 考虑 他 们 实际 上 是 否 需 要 做 会 破坏 日 记 完整 性 的 更 新 。 预 定 不 冲突 约会 的 用 户 和 不 经 意 
中 在 一 个 时 间 段 进行 两 次 预约 的 用 户 会 被 一 视 同 仁 。 

相 比 之 下 ,在 Bayou 中 ， 火 车 上 的 用 户 和 办 公 室 中 的 用 户 都 可 以 进行 他 们 希望 的 任何 更 新 。 所 有 
更 新 将 被 执行 ， 并 且 记 录 到 这 些 更 新 到 达 的 副本 管理 器 中 。 当 任何 两 个 副本 管理 器 接收 的 更 新 在 一 个 
反 焙 期 间 合并 时 ， 副 本 管理 器 负责 检测 并 解决 冲突 ， 这 时 可 以 使 用 领域 特定 的 准则 来 解决 操作 间 冲 突 。 
例如 ， 如 果 一 个 在 离线 工作 的 行政 主管 和 他 的 秘书 都 在 同一 个 时 间 段 加 入 了 预约 ， 那 么 Bayou 会 在 行 
政 主管 重新 连接 上 他 的 笔记 本 电脑 后 检测 到 这 个 冲突 。 此 外 ， 它 利用 领域 特定 的 策略 解决 这 个 冲突 。 
在 这 种 情况 下 ， 它 能 够 确认 行政 主管 的 预约 而 取消 秘书 的 预约 。 一 个 或 多 个 相 冲 突 的 操作 被 取消 或 改 
变 以 解决 冲突 的 效果 被 称 为 操作 变换 (operational transformation) o 

Bayou 复制 的 状态 以 数据 库 的 形式 保存 ， 它 支持 查询 和 更 新 (可 以 在 数据 库 中 插入 、 修 改 和 删除 
条 目 ) 。 尽 管 我 们 不 将 注意 力 集中 在 这 一 方面 ， 但 Bayou 更 新 是 事务 的 一 种 特殊 情况 。 它 由 单个 操作 组 
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成 ， 是 一 个 “存储 过 程 ”调用 ， 它 影响 着 每 个 副本 管理 器 中 的 一 些 对 象 ， 但 它 遵 循 ACID 保证 。 在 执 
行 过 程 中 ，Bayou 可 以 取消 和 重 做 对 数据 库 的 更 新 。 

Bayou 保证 最 终 每 个 副本 管理 器 收 到 相同 的 更 新 集合 ， 副 本 管理 器 最 终 将 以 一 种 使 副本 管理 器 的 
数据 库 都 相同 的 方式 来 执行 这 些 更 新 。 实 际 上 ， 可 能 有 一 个 连续 的 更 新 流 ， 数 据 库 也 可 能 永远 不 会 相 
同 。 但 如 果 一 旦 停 目 更新， 数据库 将 变 得 相同 。 

提交 的 更 新 和 临时 更 新 ” 当 更 新 首次 应 用 于 一 个 数据 库 时 ， 它 们 被 标记 为 临时 的 〈tentative ) 。 
Bayou 最 终 将 临时 的 更 新 以 规范 次 序 放置 并 标记 为 提交 的 。 在 更 新 为 临时 的 情况 下 ， 系 统 在 必要 时 可 
取消 和 重复 更 新 ， 以 产生 一 个 一 致 的 状态 。 一 旦 提交 ， 它 们 将 按 规定 的 顺序 保留 其 效果 。 实 际 中 ,可 
以 通过 将 某 个 副本 管理 器 设 为 主 副 本 管理 器 来 获得 提交 的 次 序 。 遂 常 ， 这 决定 了 提交 的 次 序 为 它 收 到 
临时 更 新 的 顺序 并 且 传 播 这 个 排序 信息 给 其 他 的 副本 管理 器 。 例 如 ， 对 于 主 副本 管理 器 ， 用 户 可 以 选 
择 一 个 通常 可 用 的 快速 机 器 。 同 样 ， 如 果 用 户 更 新 占有 优先 权 的 话 ， 主 副本 管理 器 可 以 是 行政 主管 的 


笔记 本 电脑 上 的 副本 管理 器 。 
在 任何 时 刻 ， 数 据 库 副本 的 状态 来 自 一 个 〈 可 能 空 的 ) 提交 的 更 新 序列 ， 后 跟着 一 个 〈 可 能 空 
的 ) 临时 的 更 新 序列 。 如 果 下 一 个 更 新 到 达 ， 或 如 已 提交 临时 


二 





果 某 个 临时 更 新 已 经 被 执行 变 为 下 一 个 提交 的 更 

新 ， 那 么 必须 对 更 新 进行 重 排序 。 在 图 18-8 中 , [4] | a 
已 经 变 为 提交 的 。cw 后 的 所 有 更 新 都 必须 撤销 。 

然后 , t icy ARIT, HE f ~ti Alt, FE t IS Wit SHIT OARE SM, HI 
被 重新 执行 。 所 入 到 最 新 提交 更 新 cy 之 后 。 

依赖 检查 和 合并 过 程 ” 一 个 更 新 可 能 和 已 经 热 
行 的 其 他 操作 相 冲 突 。 考 虚 到 这 种 可 能 性 ,除了 操 ” 图 18-8 Bayou 中 的 提交 的 更 新 和 临时 更 新 
作 规 约 〔 包 括 操 作 类 型 和 参数 ) 外 ， 每 一 个 Bayou 更 新 还 包含 一 个 依赖 检查 和 一 个 合并 过 程 。 一 个 更 

793) ”新 的 所 有 这 些 成 分 都 是 领域 特定 的 。 

一 个 副本 管理 器 在 质 行 操作 前 调用 依赖 检查 过 程 。 该 过 程 用 来 检查 是 否 一 个 更 新 执行 时 会 产生 冲 
突 ， 为 检查 冲突 ， 它 可 能 检查 数据 库 的 任何 部 分 。 例 如 ， 考虑 在 日 记 中 登记 一 个 预约 的 情况 。 最 简单 
的 情况 是 ， 依 赖 检 查 可 以 检查 写 - 写 冲 突 ， 即 是 否 另 外 一 个 客户 已 经 占据 了 需要 的 时 间 段 。 依 赖 检 查 
还 能 检查 读 - 写 冲突 。 例 如 ， 它 能 检查 所 需 的 时 间 有 段 是 空 的 ， 并 且 那 天 的 预约 少 于 6 个 。 

如 果 依 赖 检查 发 现 了 一 个 冲突 ， 那 么 Bayou 将 调用 操作 的 合并 过 程 。 该 过 程 会 改变 将 要 执行 的 操 
作 以 获得 与 所 要 效果 相似 的 东西 ， 但 避免 了 冲突 。 例 如 ， 就 日 记 来 说 ， 合 并 过 程 可 以 选择 相近 的 另 一 
个 时 间 段 ， 或 者 就 像 我 们 上 面 提 到 的 ， 它 可 以 使 用 一 个 简单 的 优先 级 方案 以 决定 哪个 预约 更 重要 ， 然 
后 留 下 重要 的 预约 。 合 并 过 程 可 能 无 法 找到 一 个 操作 的 合适 替代 ， 这 种 情况 下 系统 将 报错 。 然 而 合并 
过 程 的 影响 是 确定 的 一 一 Bayou 副本 管理 器 是 状态 机 。 

Tit Bayou 和 其 他 我 们 已 考虑 的 复制 方案 的 不 同 之 处 在 于 它 使 得 复制 对 于 应 用 而 言 是 不 透明 
的 。 它 利用 应 用 语义 的 知识 提高 数据 的 可 用 性 ， 同 时 维持 一 个 复制 状态 ， 我 们 称 之 为 最 终 顺 序 一 致 
性 (eventually sequentially consistent) o 

这 种 方法 有 一 些 不 足 之 处 。 首 先 ， 增加 了 应 用 程序 员工 作 的 复杂 度 ， 他 必须 提供 依赖 检查 和 合并 
过 程 。 当 需要 检查 并 解决 大 量 可 能 的 冲突 时 ， 生 成 这 两 者 非常 复杂 。 其 次 ， 不足 是 增加 了 用 户 工作 的 
复杂 度 。 用 户 不 仅 要 处 理 所 读 的 临时 数据 ， 而 且 要 处 理 这 样 的 事实 : 用 户 指定 的 操作 可 能 被 改变 。 例 
如 ， 用 户 在 日 记 中 登记 了 一 个 时 间 有 段 ， 后 来 却 发 现 登记 已 经 “ 跳 ” 到 了 邻近 的 一 个 时 间 段 。 应 给 用 户 
一 个 清晰 的 指示 ， 说 明 哪 些 数据 是 临时 的 ， 哪 些 数据 是 提交 的 ， 这 一 点 非常 重要 。 

Bayou 使 用 的 操作 变换 方法 用 于 支持 CSCW (Computer- Supported Cooperative Working， 计 算 机 支持 
的 协同 工作 ) 的 计算 机 系统 中 ， 该 系统 中 地 理 上 分 离 的 用 户 可 能 发 生 更 新 冲突 [ Kindberg et al. 1996, 
Sun and Eills 1998] 。 该 方法 的 实际 应 用 限于 冲突 较 少 的 应 用 ， 也 就 是 底层 数据 语义 较 简单 的 应 用 以 及 

[64] 用户 可 以 处 理 临 时 信息 的 应 用 。 
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18.4.3 Coda 文件 系统 


Coda 文件 系统 的 前 身 是 AFS 系统 (参见 12.4 节 ) ， 其 目标 是 解决 一 些 AFS 不 能 解决 的 需求 ， 特 别 
是 高 可 用 性 的 要 求 〈 即 使 有 断 链 操作 情况 ) 。 它 是 卡 内 基 - 梅 隆 大 学 (CMU) 的 Satyanarayanan 及 其 合 
作者 承担 的 一 个 研究 项 目 [Satyanarayanan et al. 1990; Kistler and Satyanarayanan 1992] 中 开发 的 。Coda 
的 设计 需求 来 源 于 CMU AFS 项 目 和 其 他 一 些 对 局 域 网 、 广 域 网 上 的 大 型 分 布 式 系统 的 使 用 经 验 。 

尽管 在 CMU 的 使 用 经 验 中 发 现 ，AFS 系统 的 性 能 和 易 管理 性 令 人 满意 ， 但 是 由 于 AFS 只 能 提供 非 
常 有 限 的 复制 (只 限于 只 读 卷 )， 这 在 某 种 程度 上 成 为 约束 因素 ， 特 别 访问 大 规模 共享 的 文件 ， 如 电 
子 公 告 板 系 统 和 其 他 系统 范围 的 数据 库 。 

另外 ，AFS 提供 的 服务 仍然 有 提升 可 用 性 的 空间 。AFS 用 户 所 经 历 的 最 常见 的 困难 是 服务 器 和 网 
络 组 件 的 故障 (或 调度 中 断 ) 。 在 CMU 的 系统 规模 下 ， 每 天 会 发 生 一 些 服务 故障 ， 这 些 故障 在 儿 分 钟 
到 数 小 时 内 给 用 户 造成 了 极 大 的 不 便 。 

最 后 ,计算 机 使 用 的 一 种 新 趋势 一 一 便携 式 计算 机 的 移动 使 用 出 现 了 ， 这 不 是 AFS 能 满足 的 。 这 
种 趋势 导致 了 下 列 需 求 : 在 计算 机 断 链 时 ， 用 户 能 继续 自己 的 工作 ， 不必 借助 手工 方式 管理 文件 的 
位 置 。 

Coda 的 目标 是 满足 这 三 个 需求 ， 这 三 个 需求 统称 为 稳定 的 数据 可 用 性 (constant data availability) 。 
目标 是 提供 给 用 户 一 个 共享 文件 存储 ， 并 且 在 该 存储 全 部 或 部 分 不 可 访问 时 可 完全 依赖 本 地 资源 继续 
操作 计算 机 。 除 了 这 些 目 标 ，Coda 保留 了 AFS 原来 的 目标 ,包括 可 伸缩 性 和 仿真 UNIX 文件 语义 。 

AFS 的 读 写 卷 存储 在 一 个 服务 器 上 ， 与 之 相 比 ，Coda 的 设计 依赖 文件 卷 的 复制 来 提高 文件 访问 操 
作 的 高 吞吐 率 和 高 容错 性 。 另 外 ，Codqa 扩展 了 AFS 使 用 的 在 客户 计算 机 上 缓存 文件 副本 的 机 制 ， 使 客 
户 在 未 与 网 络 连 接 时 仍然 能 够 继续 操作 。 

就 Coda 采用 了 乐观 策略 而 言 ，Coda 类 似 于 Bayou 系统 。 也 就 是 说 ， 它 允许 客户 在 有 网 络 分 区 的 情 
况 下 更 新 数据 ， 只 要 冲突 发 生 的 可 能 性 较 小 并 且 冲 突 可 随后 修正 。 与 Bayou 类 似 ，Coda 检测 冲突 ; 但 
与 Bayou 不 同 的 是 ， 它 在 进行 检测 时 不 考虑 存储 在 文件 中 的 数据 的 语义 ， 并 且 它 为 解决 副本 之 间 的 冲 
罕 只 提供 了 非常 有 限 的 系统 支持 。 

Coda 体系 结构 ”按照 AFS 的 术语 ，Coda 在 客户 计算 机 上 运行 的 进程 称 为 Venus 进程 ， 在 文件 服 
务 器 上 运行 的 进程 称 为 Vice HB. Vice 进程 就 是 我 们 所 说 的 副本 管理 器 ，Venus 进程 是 前 端 和 副本 管 
理 器 的 混合 体 。 它 们 扮演 前 端的 角色 ， 将 服务 的 实现 隐藏 在 本 地 客户 进程 中 。 由 于 它们 管理 文件 的 一 
个 本 地 缓存 ， 因 此 尽管 它们 和 Vice 进程 类 型 有 所 不 同 ， 它 们 仍 是 副本 管理 器 。 

持 有 一 个 文件 卷 副 本 的 服务 器 集合 称 为 卷 存 储 组 (Volume Storage Group ，VSG) 。 在 任何 时 候 ， 希 
望 在 这 样 的 卷 中 打开 一 个 文件 的 客户 能 访问 VSG 某 个 子 集 ， 该 子 集 被 称 为 可 用 的 卷 存储 组 (Svailable 
Volume Storage Group，AVSG) 。 由 于 网 络 或 服务 故障 使 服务 器 变 得 可 访问 或 不 可 访问 ，AVSG 的 成 员 关 
系 也 在 变化 。 

正常 情况 下 ，Coda 文件 访问 过 程 和 AFS 的 文件 访问 过 程 相似 ， 当 前 AVSG 中 的 任何 一 个 服务 器 提 
供 文件 的 缓存 副本 给 客户 计算 机 。 就 像 在 AFS 中 ,通过 一 个 回调 承诺 机 制 ， 客 户 被 告知 文件 的 变化 ， 
而 Coda 依靠 一 个 附加 机 制 对 每 个 副本 管理 器 进行 更 新 分 布 。 当 文件 关闭 时 ， 修 改过 的 拷贝 并 行 广播 到 
AVSG 中 的 所 有 服务 器 。 

在 Coda 中 ， 断 链 操作 被 认为 发 生 于 AVSG 为 空 时 。 这 可 能 是 由 于 网 络 或 服务 器 故障 造成 的 ， 也 可 
能 是 客户 计算 机 (比如 一 台 笔 记 本 电脑 ) 有 意 离 线 的 结果 。 断 链 操作 的 有 效 性 依赖 于 客户 计算 机 缓存 
中 是 否 有 用 户 继续 工作 所 需 的 所 有 文件 。 为 了 保证 这 一 点 ， 用 户 必 须 和 Coda 系统 合作 以 产生 应 该 被 组 
存 的 文件 列表 。Coda 提供 了 一 个 工具 ， 用 它 来 记录 网 络 连接 时 文件 使 用 的 历史 表 ， 并 以 这 个 表 为 基础 
预测 离线 时 要 使 用 的 文件 。 

Coda 的 一 个 设计 原则 是 服务 器 上 的 文件 拷贝 比 客户 计算 机 缓存 中 的 拷贝 更 可 靠 。 尽 管 逻辑 上 有 可 
能 构造 一 个 文件 系统 ， 使 其 完全 依靠 客户 计算 机 上 缓存 的 文件 拷贝 ， 但 这样 的 系统 不 大 可 能 提供 令 人 
满意 的 服务 质量 。Coda 服务 器 的 目标 是 提供 必要 的 服务 质量 。 客 户 计算 机 缓存 中 的 文件 拷贝 被 认为 是 
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有 效 的 ， 只 要 它们 的 当前 数据 能 定期 与 服务 器 上 的 拷贝 进行 验证 。 在 断 链 操作 的 情况 下 ， 重 新 验证 在 
断 链 操作 停止 并 且 将 缓存 文件 和 服务 器 上 的 文件 重新 整合 时 发 生 。 最 坏 情 况 下 ， 需 要 一 些 手工 干预 来 
解决 不 一 致 或 冲突 。 

复制 策略 Coda 的 复制 策略 是 乐观 的 一 一 在 网 络 分 区 和 断 链 操作 期 间 ， 仍 然 可 以 进行 文件 修改 。 
它 依靠 文件 的 每 个 版 本 上 附加 的 Coda 版 本 向 量 ( Code Version Vector, CVV), CVV 是 一 个 向 量 时 间 
锥 ， 其 中 的 一 个 元 素 对 应 着 在 相关 VSG 中 的 一 个 服务 器 。CVV 中 的 每 个 元 素 是 一 个 估计 值 ， 是 服务 器 
上 文件 的 修改 次 数 的 估计 。CVYV 的 目的 是 提供 足够 的 关于 每 个 文件 副本 的 更 新 历史 ， 使 得 能 够 检测 并 
提交 潜在 的 冲突 用 于 手工 干预 和 对 过 时 复制 的 自动 更 新 。 

如 果 一 个 站 点 的 CVV 大 于 或 等 于 所 有 其 他 站 点 相应 的 CVV (14. 4 节 给 出 了 对 于 向 量 时 间 戳 v, 和 
n May, 2, 的 定义 ) ， 那 么 不 会 发 生 冲 突 。 旧 的 副本 〈 有 严格 小 的 时 间 惟 ) 包括 一 个 较 新 的 副本 中 
的 所 有 更 新 ， 于 是 它们 可 以 自动 地 将 数据 更 新 。 

如 果 不 是 这 种 情况 ,对 于 两 个 CVV， 即 当 v So, Mo, So, 均 不 成 立时 ， 表 示 存 在 一 个 冲突 : 每 个 
副本 至 少 反 映 了 其 他 副本 没 反映 的 一 个 更 新 。 一 般 情况 下 ，Coda 不 会 自动 解决 冲突 。 文 件 被 标记 为 

“不 可 操作 ”并 且 向 文件 拥有 者 告知 有 冲突 。 

当 一 个 修改 的 文件 被 关闭 后 ， 由 客户 的 Venus 进程 发 送 一 个 更 新 消 息 〈 包 括 当 前 的 CVV 和 文件 的 
新 内 容 ) 到 当前 的 AVSG 中 的 每 一 个 站 点 。 每 个 站 点 的 Vice 进程 检查 CVV， 如 果 这 个 CVV 比 当前 它 
持 有 的 CVV 大 ， 则 存储 文件 新 内 容 并 返回 一 个 肯定 的 确认 。 然 后 Venus 进程 计算 一 个 新 的 CVV: 对 更 
新 消息 进行 肯定 应 答 的 服务 器 ， 增 加 它 的 修改 记 数 ， 并 且 发 布 新 的 CVY 给 AVSG 中 的 成 员 。 

由 于 消息 仅仅 发 送 给 AVSG 的 成 员 而 不 是 VSG 的 成 员 ， 因 此 不 在 当前 AVSG 中 的 服务 器 收 不 到 新 
的 CVV, All, CVV 总 是 包含 一 个 准确 的 对 本 地 服务 器 的 修改 记 数 ,但 对 于 非 本 地 的 记 数 一 般 是 下 
界 ， 因 为 仅 当 服务 器 收 到 一 个 更 新 消息 时 它们 才 更 新 。 

下 面 的 例子 说 明了 在 三 个 站 点 上 使 用 CVV 来 管理 文件 副本 的 更 新 。 可 以 在 [ Satyanarayanan et 
al. 1990} 中 找到 使 用 CVV 管理 更 新 的 更 多 细节 。CVV 基于 Locus 系统 使 用 的 复制 技术 [Popek and 
Walker 1985 | 。 


例子 : 考虑 对 卷 中 的 文件 下 的 一 个 修改 序列 ， 这 个 文件 在 3 个 服务 器 S S, 和 上 有 副本 。 
对 于 下 的 VSG 是 {5,，5,，S,}。 下 在 同一 时 间 被 两 个 客户 C AC, 修改 。 由 于 网 络 故障 ，C, LAE 
访问 5S, AS, (C, 的 AVSG 是 {S,, S,}), C, 仅 能 访问 S (C, 的 AVSG 是 [5,1)。 

1) 起 初 , 下 的 CVV 在 3 个 服务 器 上 是 相同 的 ， 例 如 [1, 1, 1]. 

2) C 运行 一 个 进程 ， 它 打开 F, BRF, RERA. C 的 Venus 进程 将 一 个 更 新 消息 广播 给 
它 的 AVSG， 即 {5,，5,1} 。 最 后 产生 下 的 一 个 新 的 版 本 和 S,. S 上 的 一 个 CVV [2, 2, 1], ， 但 在 
S, 上 没有 任何 改变 。 

3) 同时 ，C, 运行 两 个 进程 ， 每 一 个 进程 都 打开 修改 下， 然后 关闭 。 在 每 一 次 修改 后 ，C， 
的 Venus 进程 广播 一 个 更 新 消息 到 它 的 AVSG， 即 {5,}。 最 后 ， 产 生 卫 的 一 个 新 的 版 本 和 5， 上 
的 一 个 CVV [1, 1, 3]。 

4) 在 以 后 的 某 个 时 间 ， 网 络 故 障 修复 ，C, 通过 某 个 例 行 检查 查看 VSG 的 不 可 访问 的 成 员 是 
香 变 成 可 访问 了 (进行 这 个 检查 的 进程 在 稍 后 描述 ) ， 发 现 S 和 5, HETET. KEAR F 的 卷 修 
改 它 的 AVSG 为 {5,，S,，S;|} ， 并 且 从 新 的 AVSG 的 所 有 成 员 请 求 CVV。 当 它们 到 达 时 ，C; 发 现 
S, 和 5, 每 一 个 都 有 CVV [2, 2,1], WS, 有 [1，1，3]。 这 是 一 个 冲突 ， 需 要 手工 干预 以 使 下 
能 以 信息 丢失 最 少 的 方式 更 新 到 最 新 状态 。 

另 一 方面 ， 考虑 一 个 相似 但 是 更 简单 的 情况 ， 即 事件 顺序 与 上 述 相同 ， 但 删 去 了 第 3 条 ， 所 以 
FRA C, BH. S, 上 的 CVV 因此 没有 变化 ,还 是 [1，1，1] 。 当 网 络 故障 修复 后 ，C2 RBS, 和 
S, 的 CVV ([2, 2, 1]) 支配 (dominate) 了 S,. S, 或 S, 的 文件 的 版 本 应 该 蔡 代 9 上 的 文件 
版 本 。 
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在 正常 的 操作 中 ，Coda 的 行为 和 AFS 相似 。 一 次 缓存 访问 未 命中 ， 对 于 用 户 而 言 是 透明 的 ， 并且 
仅仅 是 性 能 上 的 问题 。 在 多 个 服务 器 上 复制 某 些 或 全 部 文件 卷 ， 所 获得 的 好 处 有 : 

。 对 于 至 少 可 以 访问 一 个 副本 的 客户 ,可 访问 一 个 复制 卷 上 的 文件 。 

。 通过 在 具有 副本 的 服务 器 上 共享 对 一 个 复制 卷 的 客户 请 求 ， 系 统 的 性 能 可 以 得 到 提高 。 

在 断 链 操作 〈 客 户 不 能 访问 卷 中 的 任何 服务 器 ) 中 ,一 次 缓存 访问 未 命中 会 阻止 进一步 的 操作 ， 
计算 被 挂 起 直到 重新 连接 上 或 用 户 放 弃 了 进程 。 因 此 ， 在 断 链 操作 开始 前 加 载 缓存 非常 重要 ， 这 样 可 
以 避免 缓存 访问 未 命中 。 

总 之 ， 和 AFS 相 比 ，Coda 通过 文件 在 多 个 服务 器 上 复制 和 客户 能 在 缓存 范围 之 外 操作 ， 改 善 了 可 
用 性 。 上 述 两 种 方法 都 依赖 乐观 检测 策略 的 使 用 ， 该 策略 在 有 网 络 分 区 的 情况 下 检测 出 更 新 冲突 。 这 
两 种 方法 既是 相互 补充 的 ， 又 是 相互 独立 的 。 例 如 ,一 个 用 户 可 以 利用 断 链 操作 的 好 处 ， 即 使 需要 的 
文件 卷 被 存储 在 单个 服务 器 上 。 

更 新 语义 ” 当 客 户 打开 一 个 文件 时 Coda 提供 的 传播 保证 比 AFS 要 弱 ， 这 反映 了 乐观 更 新 策略 的 特 
点 。 在 AFS 的 传播 保证 中 的 单个 服务 器 5 被 服务 器 集合 (文件 的 VSG) 代替 ， 客 户 C 可 以 访问 s 的 一 
FH 〈C 看 到 的 文件 的 AVSG)。 

通俗 地 说 ， 在 Coda 中 一 个 成 功 的 “open” 提 供 的 保证 如 下 : 它 从 当前 的 AVSG 中 提供 下 的 最 近 副 
本 ,并且 如 果 没 有 服务 器 是 可 访问 的 ， 那 么 如 果 有 一 个 本 地 的 缓存 副本 是 可 用 的 话 ， 它 将 被 使 用 。 一 
个 成 功 的 “close” 保 证 文件 已 经 传播 给 当前 可 访问 的 服务 器 集合 ， 如 果 没 有 可 用 的 服务 器 ， 这 个 文件 
便 被 加 上 标记 以 便 在 第 一 时 间 传 播 出 去 。 

考虑 到 丢失 回调 的 影响 ， 通 过 扩展 在 AFS 中 使 用 的 标记 ， 可 以 产生 上 述 这 些 保证 的 更 精确 的 定 
义 。 除 了 最 后 一 个 定义 外 ， 每 个 定义 都 有 两 种 情况 : BG, s40, HAVSC 不 为 空 的 情景 ;然后 处 理 
断 链 操作 : 

在 一 个 成 功 的 open 之 后 : (s¥@ and(latest( F,s,0) 

or(latest( F ,s,7) and lostCallback(s, T) and 
inCache( F) ) ) ) 
or(s = Ø and inCache( F) ) 
在 一 个 失败 的 open 之 后 : (sØ and conflict( F,s)) 
or(s = Ø and 7 inCache(F) ) 
在 一 个 成 功 的 close 之 后 : (s#@ and updated( F,s) ) 
or(s=@) 

在 一 个 失败 的 close 之 后 : s# Ø and conflict(F,s) 

上 述 模 型 假定 是 一 个 同步 系统 。 了 是 客户 不 知道 在 其 他 地 方 对 其 缓存 中 的 文件 做 了 一 次 更 新 的 最 
长 时 间 ，latest (F, s, T) 指 客户 C 的 文件 下 的 当前 值 是 最 近 了 秒 * 的 所 有 服务 器 中 的 最 新 值 ， 与 该 时 
刻下 的 找 贝 没有 冲突 。lostCallback (s, T) 指 在 最 近 了 秒 由 3 的 一 些 成 员 发 送 了 一 个 回调 ， 但 在 C 端 
HAKAJ conflict (F, s) 指 当 前 s 中 的 一 些 服务 器 上 的 刁 值 有 冲突 。 

访问 副本 open 和 close 使 用 的 访问 一 个 文件 的 副本 的 策略 是 18. 5 节 所 描述 的 读 一 个 / 写 所 有 方法 
的 一 个 变种 。 对 于 open， 如 果 一 个 文件 的 拷贝 并 不 在 本 地 缓存 中 ， 客 户 确 定 AVSG 中 的 一 个 服务 器 作 
为 首选 服务 器 。 首 选 服务 器 可 以 随机 选择 ， 也 可 以 基于 性 能 准则 (例如 物理 上 接近 或 服务 器 负荷 ) 进 
行 选择 。 客 户 从 一 个 首选 服务 器 上 请 求 一 个 文件 属性 和 内 容 的 拷贝 ， 并 且 在 接收 时 检查 AVSG 中 其 他 
的 成 员 以 证 实 这 个 拷贝 是 最 新 可 用 版 本 。 如 果 不 是 ，AVSG 中 有 最 新 版 本 的 成 员 变 为 首选 站 点 ， 文 件 
内 容 将 被 重新 获取 ， 并 且 告 知 AVSG 成 员 一 些 成 员 有 过 时 的 副本 。 当 完成 读 取 时 ， 在 那个 首选 服务 器 
上 建立 一 个 回调 承诺 。 

当 客户 的 一 个 文件 在 修改 后 关闭 时 ， 将 使 用 一 个 组 播 远程 过 程 调用 协议 将 它 的 内 容 和 属性 并 行 传 
递 到 AVSC 的 所 有 成 员 。 这 将 使 一 个 文件 在 每 个 复制 站 点 都 有 当前 版 本 的 可 能 性 最 大 。 它 并 不 确保 每 
个 站 点 都 有 当前 的 版 本 ， 因 为 AVSG 未 必 包 括 所 有 VSG 成 员 。 正 常情 况 下 ， 通 过 让 客户 负责 传播 文件 
的 修改 到 各 个 复制 场地 ， 可 以 将 服务 器 负载 减 到 最 小 (只 有 在 open 操作 发 现 一 个 过 时 的 副本 时 ， 才 需 
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要 服务 器 帮忙 ) 。 

因为 在 所 有 的 AVSG 成 员 中 维持 回调 状态 是 非常 昂贵 的 ， 所 以 回调 承诺 仅 维持 在 首选 服务 器 上 。 
但 这 样 做 引入 了 一 个 新 的 问题 : 第 一 个 客户 的 首选 服务 器 并 不 在 另 一 个 客户 的 AVSG 中 。 如 果 出 现 这 
种 情况 ， 第 二 个 客户 的 一 个 更 新 将 不 会 导致 对 第 一 个 客户 的 回调 。 下 一 节 将 讨论 这 个 问题 的 解决 方法 。 

缓存 一 致 性 ”Coda 的 传播 保证 意味 着 每 个 客户 的 Venus 进程 必须 在 下 面 事件 发 生 的 了 秒 内 检测 到 
eM: 

© 扩大 一 个 AVSG (由 于 一 个 先前 不 可 访问 的 服务 器 变 得 可 访问 ) 。 

© 收缩 一 个 AVSG 〈 由 于 一 个 服务 器 变 得 不 可 访问 )。 

。 回调 事件 丢失 。 

为 了 实现 这 个 目标 ，Venus 每 隔 了 秒 发 送 一 个 探测 消息 给 已 存放 在 缓存 中 的 文件 的 VSG 中 的 所 有 
服务 器 。Venus 只 能 从 可 访问 的 服务 器 那里 收 到 应 答 。 如 果 Venus 从 一 个 先前 不 可 访问 的 服务 器 收 到 应 
答 ， 那 么 它 会 扩大 对 应 的 AVSG 并 且 丢 弃 相关 卷 的 文件 的 回调 承诺 ， 这 样 做 是 因为 缓存 中 的 拷贝 可 能 
不 再 是 新 的 AVSG 中 的 最 新 可 用 版 本 了 。 

如 果 Venus 不 能 从 一 个 先前 可 访问 的 服务 器 处 接收 到 应 答 ， 那 么 它 收缩 对 应 的 AVSC。 并 不 需要 对 
回调 进行 修改 ， 除 非 收缩 由 丢失 一 个 首选 服务 器 引起 ， 在 这 种 情况 下 ， 那 个 服务 器 的 所 有 回调 承诺 必 
须 丢 弃 。 如 果 一 个 响应 显示 已 发 送 了 一 个 回调 消息 但 没有 被 收 到 ， 那 么 相应 文件 上 的 回调 承诺 将 被 
EF. 

剩 下 的 问题 是 ， 一 个 服务 器 没有 收 到 更 新 ， 因 为 该 服务 器 不 在 执行 这 个 更 新 的 另 一 个 客户 的 
AVSG 中 。 为 了 处 理 这 种 情况 ，Venus 发 送 一 个 卷 版 本 向 量 〈 卷 CVV) 响应 每 个 探测 消息 。 卷 版 本 向 
量 包 含 一 个 卷 中 所 有 文件 的 CVV 的 摘要。 如 果 Venus 检测 到 卷 CVV 间 的 任何 不 匹配 ， 则 说 明 一 些 
AVSG 成 员 肯定 有 一 些 过 时 的 文件 版 本 。 尽 管 过 时 的 文件 可 能 不 是 在 本 地 缓存 的 ， 但 Venus 使 用 悲观 的 
假设 ， 它 会 丢弃 所 有 它 持 有 的 相关 文件 上 的 回调 承诺 。 

值得 注意 的 是 ，Venus 只 探 询 持 有 缓存 副本 的 文件 的 VSG 中 的 所 有 服务 器 ， 一 个 探 询 消息 用 于 更 
新 AVSG 并 检查 某 一 文件 卷 中 的 所 有 文件 的 回调 。 这 〈 再 加 上 相对 大 的 了 值 〈 在 实验 性 实现 中 这 个 值 
是 在 10 分 钟 的 量 级 上 ) ) 意味 着 探 询 消息 并 不 是 使 Coda 在 大 量 服 务 器 和 广域网 方面 具有 可 伸缩 性 的 
障碍 。 

断 链 操作 ”在 短暂 的 浙 链 期 间 ， 诸 如 由 于 不 可 预料 的 服务 干扰 而 导致 的 离线 ，Venus 采用 最 近 最 
少 使 用 的 缓存 替代 策略 ， 这 可 能 足以 避免 对 断 链 的 文件 卷 上 的 缓存 不 命中 。 但 除非 采取 另外 的 策略 ， 
否则 ， 一 个 客户 在 断 链 模 式 下 长 期 工作 时 不 访问 不 在 缓存 的 文件 或 目录 是 不 可 能 的 。 

因此 ，Coda 允许 用 户 指定 一 个 文件 和 目录 的 优先 级 表 ，Venus 应 该 努力 把 它们 保留 在 缓存 中 。 最 
高 层 的 对 象 被 认为 是 不 变 的 ， 它 们 必须 时 时 保持 在 缓存 中 。 如 果 本 地 硬盘 足够 大 ， 能 够 容纳 所 有 的 高 
层 对 象 的 话 ， 那 么 用 户 可 一 直 访问 它们 。 由 于 要 精确 地 知道 某 种 次 序 的 用 户 动作 将 产生 什么 样 的 文件 
访问 是 非常 困难 的 ， 因 此 Coda 提供 了 一 个 工具 使 得 用 户 能 够 将 动作 序列 分 组 ; Venus 记录 由 访问 序列 
生成 的 文件 引用 并 且 为 它们 标 上 一 个 给 定 的 优先 级 。 

在 断 链 操作 结束 时 ， 开 始 重新 整合 过 程 。 对 于 每 个 在 断 链 操作 期 间 进 行 了 修改 、 创 建 或 删除 的 组 
存 文 件 或 目录 来 说 ，Venus 执行 一 系列 更 新 操作 以 使 得 AVSG 副本 和 缓存 拷贝 相同 。 重 新 整合 从 每 个 组 
冲 文件 卷 的 根 起 自 顶 向 下 进行 。 

在 重新 整合 期 间 ， 由 于 其 他 客户 更 新 了 AVSG 副本 ， 因 此 可 能 会 检测 到 冲突 。 一 旦 发 生 了 这 样 的 
情况 ， 绥 存 的 拷贝 被 存储 在 服务 器 上 的 一 个 临时 位 置 ， 并 且 通 知 发 起 重新 整合 的 用 户 。 这 种 方法 基于 
Coda 采用 的 设计 理念 ， Coda 分 配给 基于 服务 器 的 副本 的 优先 级 要 高 于 缓存 中 的 拷贝 的 优先 级 。 临 时 持 
贝 存储 在 一 个 合作 卷 中 ， 它 和 服务 器 上 每 一 个 卷 相关 。 合 作 卷 很 像 传统 UNIX 系统 中 的 lost + found H 
录 。 合 作 卷 仅 镜像 部 分 用 于 存放 临时 数据 的 文件 目录 结构 。 它 并 不 怎么 需要 额外 的 存储 ， 因 为 合作 着 
几乎 总 是 空 的 。 

性 能 ”Satyanarayanan 等 [1990] 用 仿真 典型 AFS FA 〈 从 5 个 到 50 个 ) 的 基准 负载 ， 比 较 了 Co- 
da 和 AFS 的 性 能 。 
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如 果 没 有 复制 ，AFS 和 Coda 的 性 能 没有 太 大 的 差别 。 若 采用 复制 三 次 的 策略 ，Coda 在 5 个 典 
型 用 户 负载 的 基准 下 ， 完 成 负载 的 时 间 只 超过 无 复制 的 AFS 5% ， 但 是 ， 同 样 是 三 次 复制 ,在 50 
个 典型 用 户 的 负载 基准 下 ，Coda 完成 负载 的 时 间 增 加 了 70% ， 对 无 复制 的 AFS， 完 成 负载 的 时 间 
只 增加 了 16% 。 这 个 差别 部 分 归 因 于 与 复制 相关 的 开销 ， 优 化 实现 上 的 不 同 也 是 造成 性 能 差异 的 
原因 。 

讨论 。 上面 我 们 指出 Coda 和 Bayou 相似 之 处 在 于 Coda 也 使 用 了 乐观 方法 以 获得 高 可 用 性 (尽管 
它们 在 其 他 一 些 方面 不 同 ， 不 仅仅 是 因为 一 个 管理 文件 而 另 一 个 管理 数据 库 ) 。 我 们 也 描述 了 Coda 如 
何 使 用 CVV 检查 冲突 ， 不 用 考虑 存储 在 文件 中 的 数据 的 语义 。 这 个 方法 可 以 检测 潜在 的 写 ~ 写 冲 突 但 
不 能 检查 读 - 写 冲突 。 之 所 以 说 是 “ 光 在 ”的 写 - 写 冲 突 ， 是 因为 在 应 用 语义 的 层次 上 来 说 ， 可 能 并 
不 存在 实际 的 冲突 : 客户 可 能 无 冲突 地 更 新 了 文件 中 的 不 同 的 对 象 ， 因 此 一 个 简单 的 自动 合并 将 是 可 
能 的 。 

Coda 所 用 的 语义 无 关 的 冲突 检测 和 手工 解决 的 方法 在 许多 情况 下 是 可 行 的 ， 尤 其 在 需要 人 为 判断 
的 应 用 或 者 是 没有 数据 语义 知识 的 系统 中 。 

目录 是 Coda 的 一 个 特殊 情况 。 在 冲突 解决 中 自动 地 维持 这 些 关 键 对 象 的 完整 性 是 有 可 能 的 ， 因 为 
它们 的 语义 相对 简单 :目录 发 生 的 变化 只 有 目录 项 的 插入 和 删除 。Coda 用 它 自己 的 方法 解决 目录 问 
题 。 它 与 Bayou 的 操作 变换 方法 有 相同 的 效果 ， 但 是 Coda 直接 合并 相互 冲突 的 目录 的 状态 ， 因 为 它 没 
有 记录 客户 完成 的 操作 。 

Dynamo 中 的 复制 ”16.7 节 介 绍 了 Dynamo 存储 服务 ， 该 服务 被 Amazon 用 于 仅 需 要 键 / 值 访问 的 购 
物 车 等 应 用 中 。 在 Dynamo [ DeCandia et al. 2007] 中 ， 数 据 被 分 区 和 复制 ， 所 有 的 更 新 最 终 会 到 达 所 
有 的 副本 。 

类 似 Bayou 和 Coda, Dynamo 使 用 了 乐观 复制 技术 ， 所 有 更 新 被 允许 并 发 地 在 后 台 传 播 到 副本 ， 能 
在 断 链 的 情况 下 工作 。 这 个 方法 会 导致 有 冲突 的 变更 ， 这 些 变更 必须 被 检测 和 解决 。 

在 Dynamo 中 ， 写 总 是 被 接受 并 被 写成 不 变 的 版 本 ， 这 样 ， 顾 客 总 是 能 在 他 们 的 购物 车 中 增加 和 删 
除 条 目 。 

向 量 时 间 惟 被 用 于 决定 相同 对 象 的 不 同 版 本 的 因果 序 。 时 间 惟 的 比较 参见 14. 4 节 的 描述 。 当 一 个 
版 本 的 向 量 时 间 稚 比 另 一 个 小 时 ， 丢 奔 较 早 的 版 本 。 否 则 ， 两 个 版 本 相 冲 突 ， 必 须要 解决 冲突 。 两 个 
版 本 的 数据 都 被 存储 并 作为 读 操作 的 结果 提供 给 客户 。 

客户 负责 解决 冲突 。Dynamo 提供 类 似 Bayou 的 应 用 层 方法 和 类 似 Coda 的 系统 层 方 法 。 前 一 个 方 
法 用 于 购物 车 ， 那 里 相 冲 突 版 本 的 所 有 “增加 条 目 ” 操 作 被 全 并， 有时， 一 个 被 删除 的 条 目 会 再 次 出 
现 。 当 应 用 语义 不 能 用 时 ， 
象 被 选 为 正确 的 版 本 。 


18.5 复制 数据 上 的 事务 


到 目前 为 止 ， 在 我 们 考虑 的 系统 中 ， 客 户 只 在 对 象 的 复制 集合 上 一 次 请 求 一 个 单独 的 操作 。 第 16 
章 和 第 17 章 解释 了 事务 是 一 个 或 多 个 操作 的 序列 ， 并 具有 ACID 性 质 。 对 18. 4 节 中 的 系统 ， 事务 系统 
中 的 对 象 可 以 通过 复制 来 提高 可 用 性 和 性 能 。 

对 客户 而 言 ， 复 制 对 象 上 的 事务 看 上 去 应 该 和 没有 复制 的 对 象 的 事务 一 样 。 在 无 复制 的 系统 中 ， 
事务 以 某 种 次 序 执行 一 次 。 这 是 通过 确保 客户 事务 的 交错 执行 是 串 行 等 价 的 来 实现 的 。 作 用 于 复制 对 
象 的 事务 应 该 和 它们 在 一 个 对 象 集 上 的 一 次 执行 具有 一 样 的 效果 。 这 种 性 质 叫做 单 找 贝 串 行 化 〈one- 
copy serializability) 。 该 性 质 与 顺序 一 致 性 非常 相似 ， 但 不 能 混淆 。 顺 序 一 致 性 考虑 有 效 的 执行 ， 并 不 
考虑 将 客户 的 操作 组 合成 一 个 事务 。 

每 一 个 副本 管理 器 为 它 自己 的 对 象 提供 并 发 控制 和 恢复 。 本 节 假 定 用 两 阶段 加 锁 实 现 并 发 控制 。 

一 个 副本 管理 器 出 现 故 障 ， 不 能 再 提供 服务 ， 但 是 同一 个 副本 管理 器 集合 中 的 其 他 成 员 在 它 不 可 
用 的 时 候 ， 继 续 提 供 服务 ， 这 使 恢复 问题 变 得 复杂 。 当 副本 管理 器 从 故障 中 恢复 后 ， 考 虑 到 在 它 不 可 
用 期 间 发 生 的 所 有 变化 ， 它 需要 从 别 的 副本 管理 器 获取 信息 以 恢复 对 象 的 当前 值 。 
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本 节 首 先 介绍 处 理 复制 数据 的 事务 的 体系 结构 。 体 系 结构 上 的 问题 包括 : 一 个 客户 请 求 能 否 寻 址 
到 副本 管理 器 中 的 任 一 个 ; 为 了 成 功 完 成 一 个 操作 需要 多 少 副本 管理 器 ; 是 否 某 个 客户 相连 的 副本 管 
理 器 能 够 推迟 转发 请 求 ， 直 到 事务 提交 ; 以 及 如 何 实现 两 阶段 提交 协议 。 
单 拷贝 串 行 化 的 实现 可 以 通过 读 一 个 / 写 所 有 来 说 明 。 这 是 一 个 简单 的 复制 方案 ， 其 中 读 操 作 由 一 
个 副本 管理 器 完成 ， 写 操作 由 所 有 的 副本 管理 器 执行 。 
本 节 接 着 讨论 服务 器 崩溃 和 恢复 时 如 何 实现 复制 方案 ， 并 介绍 了 读 一 个 / 写 所 有 复制 方案 的 一 个 变 
种 ， 即 可 用 拷贝 复制 方法 一 一 读 操作 由 任何 一 个 副本 管理 器 完成 ， 写 操作 由 所 有 当前 可 用 的 副本 管理 
器 执行 。 
最 后 ， 本 节 提 出 了 三 种 复制 方案 。 在 出 现 网 络 分 区 ， 副 本 管理 器 集合 被 分 为 子 组 时 ， 这 三 种 方案 
均 可 正确 工作 。 
e 带 验证 的 可 用 拷贝 : 在 每 一 个 分 区 中 应 用 可 用 拷贝 复制 ， 当 修复 分 区 后 ， 通 过 一 个 验 认 过 程 来 
处 理 任何 不 一 致 情况 。 

。 法 定数 共识 : 每 个 子 组 必须 是 一 个 法 定 组 〈 意 味 着 它 有 足够 的 成 员 ) ， 以 便 在 出 现 分 区 时 能 够 
继续 提供 服务 。 当 分 区 修复 后 〈 并 且 当 一 个 副本 管理 器 在 故障 后 重新 启动 时 ) ， 副 本 管理 器 通 
过 恢复 过 程 获得 它们 的 最 新 对 象 。 

。 虚拟 分 区 : 法 定数 共识 和 可 用 拷贝 的 结合 。 如 果 一 个 虚拟 分 区 有 一 个 法 定 组 ， 它 就 能 使 用 可 用 

拷贝 复制 。 


18. 5. 1 复制 事务 的 体系 结构 


在 前 面 几 节 已 考虑 的 系统 范围 中 ， 一 个 前 端 可 以 将 客户 请 求 组 播 到 副本 管理 器 组 或 发 送 请 求 到 
某 个 副本 管理 器 ， 这 个 副本 管理 器 负责 处 理 请 求 并 响应 客户 。Wiesmann % [2000], Schiper 和 
Raynal [1996] 考虑 了 组 播 请 求 的 情况 ， 我 们 在 此 不 再 装 述 。 从 现在 开始 ， 我 们 假定 前 端 发 送 客户 
请 求 到 一 个 逻辑 对 象 的 副本 管理 器 组 中 的 某 一 个 副本 管理 器 。 在 主 拷贝 (primary copy) 方法 中 ， 所 
有 前 端 和 一 个 “ 主 ” 副 本 管理 器 通信 来 执行 某 个 操作 ， 由 这 个 副本 管理 器 负责 更 新 备份 。 另 一 种 方 
法 是 ， 前 端 可 以 和 任何 一 个 副本 管理 器 通信 来 执行 某 个 操作 ， 但 是 这 种 情况 下 副本 管理 器 之 间 的 协 
调 问 题 更 加 复杂 。 

收 到 针对 特定 对 象 执 行 操作 请 求 的 副本 管理 器 负责 协调 组 中 具有 那个 对 象 拷贝 的 其 他 副本 管理 
器 。 至 于 需要 多 少数 量 的 副本 管理 器 才能 成 功 地 完成 一 个 操作 ， 不 同 的 复制 方案 有 不 同 的 规则 。 例 
如 ， 在 读 一 个 / 写 所 有 方案 中 ，read 请 求 可 以 由 单个 副本 管理 器 来 执行 ， 而 write 请 求 必须 由 组 中 所 
有 副本 管理 器 来 执行 ， 如 图 18-9 Bras 〈 不 同 对 象 可 以 有 不 同 数目 的 副本 ) 。 法 定数 共识 方案 用 来 降 
低 执行 一 个 更 新 操作 所 必需 的 副本 管理 器 的 数目 ， 但 它 的 代价 是 增加 了 执行 只 读 操 作 的 副本 管理 器 
的 数目 。 


客户 + 前 端 客户 + 前 端 





deposit(B,3) 


getBalance(A) 


副本 管理 器 


图 18-9 复制 数据 上 的 事务 
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奶 一 个 问题 是 和 前 端 联系 的 副本 管理 器 是 否 应 该 延迟 转发 更 新 请 求 到 别 的 管理 器 ， 直 到 一 个 事务 
提交 为 止 ， 即 所 谓 的 更 新 传播 的 情 性 方法 ; 或 者 相反 ,是 否 副本 管理 器 应 该 在 它 提交 事务 以 前 将 每 一 
个 更 新 请 求 转发 到 所 有 的 管理 器 一 一 及 时 方法 。 惰 性 方法 是 一 个 很 好 的 选择 : 它 降低 了 响应 更 新 客户 
之 前 发 生 的 副本 管理 器 之 间 的 通信 和 量 。 但 是 在 该 方法 中 ， 需 要 仔细 考虑 并 发 控制 。 惰 性 方法 有 时 用 在 
主 拷贝 复制 中 〈 见 下 文 ) ， 主 副本 管理 器 可 将 事务 串 行 化 。 但 如 果 几 个 不 同 的 事务 试图 访问 某 对 象 在 
一 个 组 中 不 同 管理 器 上 的 副本 时 ， 为 了 确保 事务 能 在 所 有 的 副本 管理 器 上 正确 执行 ， 每 一 个 副本 管理 
器 必须 知道 其 他 管理 器 的 执行 情况 。 此 时 ， 及 时 方法 是 唯一 可 用 的 方案 。 

两 阶段 提交 协议 ”两 阶段 提交 协议 现在 变 成 两 层 风 套 的 两 阶段 提交 协议 。 与 以 前 一 样 ， 一 个 事务 
的 协调 者 和 其 他 参与 者 进行 通信 。 但 是 ， 如 果 协 调 者 或 参与 者 是 一 个 副本 管理 器 时 ， 那么 它 将 和 其 他 
的 副本 管理 器 通信 ， 它 将 在 事务 期 间 发 送 请 求 给 这 些 副 本 管理 器 。 

简 而 言 之 ,在 第 一 阶段 ， 协 调 者 发 送 “canCommit?” 给 参与 者 ， 参 与 者 再 将 这 个 消息 传递 给 其 他 
副本 管理 器 ， 并 在 回答 协调 者 之 前 收集 它们 的 应 答 。 在 第 二 阶段 ， 协 调 者 发 送 “doCommit” 或 “do- 
Abort” 请 求 ， 这 个 请 求 将 传递 给 副本 管理 器 组 成 员 。 

主 找 贝 复制 ” 主 拷贝 复制 可 用 在 事务 环境 。 在 这 个 方案 中 ， 所 有 的 客户 请 求 (不 管 是 否 只 读 ) 
直接 送 到 一 个 主 副本 管理 器 ( 见 图 18-3) 。 对 于 主 拷贝 复制 ， 并 发 控制 被 应 用 于 主 副 本 管理 器 上 。 
当 提 交 一 个 事务 时 ， 主 副本 管理 器 和 备份 副本 管理 器 通信 ， 然 后 用 及 时 方法 应 答 用 户 。 这 种 形式 的 
复制 可 以 在 主 副本 管理 器 出 故障 时 ， 由 一 个 备份 副本 管理 器 一 致 地 接管 它 。 在 惰性 方法 中 ， 主 副本 
管理 器 在 它 更 新 备份 前 就 响应 前 端 。 此 时 ， 一 个 替代 了 故障 前 端的 备份 副本 管理 器 未 必 有 数据 库 的 
最 新 状态 。 

读 一 个 / 写 所 有 ”我们 使 用 这 个 简单 的 复制 方案 来 说 明 如 何 通过 每 个 副本 管理 器 上 的 两 阶段 加 锁 来 
获得 单 副本 串 行 化 ， 这 里 ， 前 端 可 以 和 任何 副本 管理 器 通信 。 每 一 个 write 操作 必须 在 任何 副本 管理 器 
上 执行 ， 副 本 管理 器 在 操作 影响 到 的 每 个 对 象 上 加 一 个 写 锁 。 每 个 read 操作 由 单个 副本 管理 器 执行 ， 
该 副本 管理 器 在 受 此 操作 影响 的 对 象 上 加 一 个 读 锁 。 

考虑 在 同一 对 象 上 的 不 同事 务 的 两 个 操作 : 任何 两 个 write 操作 需要 在 所 有 副本 管理 器 上 请 求 冲突 
Bi; 一 个 read 操作 和 一 个 write 操作 将 请 求 一 个 副本 管理 器 上 的 冲突 锁 。 结 果 ， 获 得 了 单 副 本 串 行 化 。 


18.5.2 可 用 拷贝 复制 


简单 的 读 一 个 / 写 所 有 复制 并 不 是 一 个 现实 的 方案 。 因 为 当 副 本 管理 器 因为 崩溃 或 发 生 通信 故障 而 
变 得 不 可 用 时 ， 这 种 方案 就 不 可 能 实现 。 可 用 副本 复制 方案 允许 某 些 副本 管理 器 暂时 不 可 用 。 这 个 方 
案 是 客户 对 一 个 逻辑 对 象 的 read 请 求 可 以 由 任何 可 用 的 副本 管理 器 执行 。 但 是 一 个 客户 的 更 新 请 求 必 
须 由 具有 那个 对 象 副本 的 拷贝 管理 器 组 中 的 所 有 可 用 副本 管理 器 执行 。“ 副 本 管理 器 组 中 可 用 成 员 ” 
的 概念 和 18. 4. 3 节 描 述 的 Coda 中 的 可 用 卷 存储 组 非常 相似 。 

在 正常 情况 下 ， 一 个 正常 工作 的 副本 管理 器 接收 并 执行 客户 的 请 求 。read 请 求 可 由 收 到 请 求 的 副 
本 管理 器 执行 。write 请 求 由 收 到 请 求 的 副本 管理 器 和 组 中 其 他 可 用 的 副本 管理 器 执行 。 例 如 ， 在 
图 18-10 中 ， 事 务 了 的 getBalance HREH X HIT, MEK deposit 操作 由 MH、N 和 PP 执行 。 每 个 副本 管理 
器 上 的 并 发 控制 影响 本 地 执行 的 操作 。 例 如 ， 在 X 上 ， 事务 7 已 经 恋 了 4， 因 此 事务 U 并 不 允许 用 
deposit 操 作 来 更 新 4， 直 到 事务 了 完成 为 止 。 只 要 可 用 的 副本 管理 器 集 没 有 变化 ， 本 地 的 并 发 控制 将 和 
读 一 个 / 写 所 有 复制 一 样 可 获得 单 拷贝 串 行 化 。 遗 憾 的 是 ， 如 果 相 冲突 的 事务 在 进行 过 程 中 ， 副 本 管理 
器 出 了 故障 或 正在 恢复 ， 那 么 就 不 是 这 种 情况 了 。 

副本 管理 器 故障 ”我们 假定 副本 管理 器 的 故障 是 良性 崩溃 。 崩 溃 的 副本 管理 器 被 一 个 新 的 进程 取 
代 ， 它 用 一 个 恢复 文件 来 还 原 对 象 的 提交 状态 。 前 端 使 用 超时 检查 来 判断 某 个 副本 管理 器 当前 是 否 可 
用 。 当 一 个 客户 发 送 一 个 请 求 到 一 个 已 崩溃 的 副本 管理 器 后 ， 前 端 将 会 超时 ， 并 重新 尝试 将 请 求 发 送 
到 组 中 的 另 一 个 副本 管理 器 。 如 果 请 求 被 某 个 副本 管理 器 接收 ， 但 由 于 副本 管理 器 尚未 完全 从 故 麻 中 
恢复 而 导致 对 象 数据 过 时 ,副本 管理 器 将 拒绝 请 求 ， 这 时 前 端 将 重新 发 送 请 求 到 组 中 的 另 一 个 副本 管 
理 器 。 
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客户 + 前 端 T U 客户 + 前 端 










getBalance(B) 
deposit(A,3) 
getBalance(A) 


deposit(B, 3) 副本 管理 器 


副本 管理 器 


图 18-10 可 用 的 副本 


单 拷贝 串 行 化 要 求 崩溃 和 恢复 就 事务 而 言 是 串 行 化 的 。 根 据 是 否 能 够 访问 某 个 对 象 ， 一 个 事务 能 


(805) 够 判断 在 事务 完成 之 后 还 是 在 事务 启动 之 前 存在 故障 。 当 不 同 的 事务 观察 到 相互 冲突 的 故障 情况 时 ， 


将 无 法 获得 单 拷贝 串 行 化 。 

考虑 图 18-10 中 的 情况 ， 副 本 管理 器 X 在 7 已 经 执行 了 getBalance 之 后 出 故障 ， 副 本 管理 器 和 N 在 U 
完成 getBalance 后 出 现 故 障 。 假 定 在 7 和 U0 执行 deposit 操作 以 前 副本 管理 器 闻 入 出 现 故 障 。 这 暗示 
A T HY deposit 将 在 副本 管理 器 性 和 P 上 执行 ，U 的 deposit 将 在 副本 管理 器 了 上 执行 。 但 是 ， 副 本 管理 
az X EXT A 的 并 发 控制 并 不 会 阻止 事务 U 在 副本 管理 器 Y 上 更 新 4。 同 样 , 副本 管理 器 NN 上 对 B 的 
并 发 控制 也 不 会 阻止 了 在 副本 管理 器 性 和 P 上 更 新 B。 

这 种 现象 与 单 拷贝 串 行 化 需求 是 相 违背 的 。 如 果 这 些 操作 在 对 象 的 单一 拷贝 上 执行 ， 那 么 它们 
应 该 是 可 串 行 化 的 ， 即 要 么 事务 了 在 忆 之 前 执行 ,要么 了 在 事务 U0 之 后 执行 。 这 保证 一 个 事务 可 以 
读 取 另 一 个 事务 设置 的 值 。 对 象 拷贝 的 本 地 并 发 控制 不 足以 在 可 用 拷贝 复制 方案 中 保证 单 副 本 串 
行 化 。 

由 于 write 操作 直接 作用 于 所 有 可 用 的 拷贝 上 ， 所 以 ， 本 地 并 发 控制 确实 能 保证 在 一 个 对 象 上 的 
冲突 写 是 可 串 行 化 的 。 与 此 相反 ， 一 个 事务 的 read 操作 和 另 一 个 事务 的 write 操作 未 必 影 响 对 象 的 同 
一 个 拷贝 。 因 此 ， 该 方案 需要 额外 的 并 发 控制 方法 以 防止 一 个 事务 的 read 操作 和 另 一 个 的 write 操作 
相互 依赖 而 形成 一 个 环 。 如 果 故 障 和 对 象 副 本 的 恢复 对 事务 而 言 是 串 行 化 的 ， 那 么 不 会 产生 这 样 的 
依赖 。 

本 地 验证 我 们 把 额外 的 并 发 控制 过 程 称 为 本 地 验证 。 本 地 验证 用 来 确保 任何 故障 或 恢复 事件 不 
会 在 事务 的 执行 过 程 中 发 生 。 在 我 们 的 例子 中 ， 当 TT 已 经 对 关上 的 一 个 对 象 进行 了 read 操作 ，X 的 故 
障 一 定 出 现在 7 了 完成 以 后 。 同 样 的 ， 当 了 试图 更 新 对 象 时 发 现 NN 出 了 故障 ， 那么 NN 的 故障 一 定 在 7 之 
前 出 现 ， 即 : 

N 出 故障 一 了 在 了 上 读 对 象 4; THM AP ESIR BOT CX 出 故障 
同样 对 事务 UMA, A: 

出 故障 一 U 在 N 上 读 对 象 B; UEY ERR ASU 提交 NN 出 故障 

本 地 验证 过 程 确保 两 个 这 样 的 不 相 容 的 序列 不 会 同时 发 生 。 在 一 个 事务 提交 以 前 ， 它 检查 事务 已 
访问 的 副本 管理 器 的 任何 故障 (和 恢复 ) 。 在 上 面 的 例子 中 ,7 通过 检查 发 现 尽 仍然 不 可 用 , MX M 
和 P 仍 然 可 用 。 在 这 种 情况 下 ，T 能 够 提交 。 这 暗示 着 在 7 了 验证 之 后 、U 验证 之 前 出 现 故 障 。 换 言 
È, 0 的 验证 是 在 7 的 验证 之 后 进行 的 。U 验证 失败 是 因为 N 已 经 出 现 故 障 。 

每 当 某 个 事务 发 现 故障 时 ， 本 地 验证 过 程 将 试图 和 发 生 故障 的 副本 管理 器 通信 来 确信 它们 仍然 没 
有 恢复 。 本 地 验证 过 程 的 其 他 部 分 用 于 测试 访问 对 象 时 ， 副 本 管理 器 是 否 发 生 故 障 ， 这 些 部 分 操作 可 
以 并 入 两 阶段 提交 协议 中 。 

当 正 常 工作 的 副本 管理 器 不 能 和 另外 的 副本 管理 器 通信 时 ， 可 用 拷贝 算法 不 能 使 用 。 
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18.5.3 网络 分 区 


复制 方案 需要 考虑 网 络 分 区 的 可 能 性 。 网 络 分 区 将 一 个 副本 管理 器 组 分 为 两 个 或 更 多 的 子 组 ， 在 
这 种 情况 下 ， 一 个 子 组 中 的 成 员 可 相互 通信 ， 但 不 同 子 组 中 的 成 员 不 能 通信 。 例 如 ， 在 图 18- 11 中 ， 
收 到 deposit 的 副本 管理 器 不 能 将 其 发 送 给 收 到 withdraw 请 求 的 副本 管理 器 。 


客户 + 前 端 客户 + 前 端 











withdraw(B, 4) 1 网 络 分 区 


deposit(B, 3) 


副本 管理 器 


图 18-11 网 络 分 区 


复制 方案 的 设计 基于 这 样 的 假定 : 网 络 分 区 最 终 将 被 修复 。 因 此 ， 单 个 分 区 中 的 副本 管理 器 必须 
保证 在 分 区 期 间 它 们 执行 的 任何 请 求 在 分 区 修复 后 不 会 造成 不 一 致 。 

Davidson 等 [1985] 讨论 了 多 种 不 同 的 方法 。 按 照 是 否 容易 发 生 不 一 致 ， 这 些 方法 可 分 为 乐观 方 
法 和 悲观 方法 。 乐 观 方法 在 分 区 期 间 不 限制 可 用 性 ， 然 而 悲观 方法 却 对 此 有 所 限制 。 

乐观 方法 允许 在 所 有 的 分 区 中 进行 更 新 一 一 这 可 能 会 导致 分 区 的 不 一 致 ， 该 问题 必须 在 分 区 修复 
后 解决 。 这 种 方法 的 一 个 例子 是 可 用 拷贝 算法 的 一 个 变种 ， 即 在 分 区 中 允许 进行 更 新 ， 并 且 当 分 区 恢 
复 时 ， 对 更 新 加 以 验证 一 一 任何 违背 单 拷贝 串 行 化 准则 的 更 新 将 被 丢弃 。 

即使 没有 分 区 ， 悲 观 算法 也 对 可 用 性 有 所 限制 ， 但 它 阻 止 了 在 分 区 时 任何 不 一 致 的 产生 。 当 一 个 
分 区 恢复 时 ， 所 要 做 的 是 更 新 对 象 的 拷贝 。 法 定数 共识 方法 是 悲观 方法 ， 它 允许 在 大 多 数 副 本 服务 器 
所 在 分 区 中 进行 更 新 并 当 分 区 修复 时 将 更 新 传 给 其 他 的 副本 管理 器 。 


18.5.4 带 验 证 的 可 用 拷贝 


可 用 副本 算法 可 在 每 一 个 分 区 内 使 用 。 这 种 乐观 方法 即使 在 分 区 期 间 也 可 以 维持 正常 水 平 的 
read 操作 的 可 用 性 。 当 一 个 分 区 被 修复 后 ， 需 要 对 发 生 在 不 同 分 区 中 的 可 能 相互 冲突 的 事务 进行 验 
证 。 如 果 验 证 失败 ， 必 须 采 取 一 些 步 又 来 克服 这 种 不 一 致 。 如 果 没 有 发 生 分 区 ， 相 互 冲突 的 两 个 事 
务 之 一 将 被 延迟 或 放弃 。 遗 憾 的 是 ， 当 分 区 存在 时 ， 冲 突 的 事务 已 经 被 允许 在 不 同 的 分 区 中 提交 。 
这 种 情况 发 生 后 的 唯一 选择 就 是 放弃 其 中 的 一 个 事务 。 这 需要 在 对 象 中 进行 某 些 变化 ， 甚 至 在 某 些 
情况 下 要 补偿 现实 世界 中 的 影响 ， 例 如 银行 的 账户 透支 。 当 能 采取 这 种 补偿 行为 时 ， 乐 观 方法 才 是 
可 行 的 。 

可 利用 版 本 向 量 来 验证 相互 冲突 的 write 操作 。 这 些 方法 在 18. 4. 3 节 中 已 经 描述 过 ， 并 且 已 被 用 
于 Coda 文件 系统 中 。 这 种 方法 并 不 能 检测 到 读 - 写 冲突 ， 但 在 事务 多 是 访问 单个 文件 并 且 读 - 写 冲 突 
不 重要 的 文件 系统 中 ， 这 种 方法 能 够 很 好 地 工作 。 它 并 不 适合 类 似 银 行 例子 这 类 应 用 ， 因 为 对 这 种 应 
用 而 言 , 读 - 写 冲突 很 重要 。 

Davidson [1984] (EMIA (precedence graph) 来 检测 分 区 间 的 不 一 致 。 每 一 个 分 区 维持 着 一 
个 受 事务 read 和 write 操作 影响 的 对 象 的 日 志 。 这 个 日 志 用 来 构建 一 个 前 驱 图 ， 图 的 结 点 是 事务 ， 它 的 
边 代表 事务 read 和 write 操作 之 间 的 冲突 。 这 样 一 个 图 应 该 不 包含 任何 环 ， 因 为 并 发 控制 已 经 应 用 于 分 
区 中 。 验 证 过 程 取出 分 区 的 前 驱 图 并 在 不 同 分 区 中 的 事务 之 间 加 上 代表 冲突 的 边 。 如 果 最 终 的 图 包含 
了 环 ， 那 么 验证 失败 。 
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18. 5.5 法 定数 共识 方法 


一 种 阻止 分 区 中 的 事务 产生 不 一 致 的 方法 是 制定 一 个 规则 ， 使 操作 只 能 在 某 一 个 分 区 中 进行 。 由 
于 不 同 分 区 中 的 副本 管理 器 不 能 相互 通信 ， 因 此 每 一 个 分 区 中 的 副本 管理 器 子 组 必须 独立 地 决定 它们 
是 否 能 进行 操作 。 法 定数 是 一 个 副本 管理 器 子 组 ， 它 的 大 小 使 它 具 有 执行 操作 的 权利 。 例 如 ， 如 果 拥 
有 大 多 数 成 员 是 一 个 标准 的 话 ， 那 么 含 大 多 数 成 员 的 子 组 可 形成 一 个 法 定 组 ， 因 为 其 他 的 子 组 不 会 拥 
有 大 多 数 成 员 。 

在 一 个 法 定数 共识 的 复制 方案 中 ， 一 个 逻辑 对 象 上 的 更 新 操作 可 以 成 功 地 被 副本 管理 器 组 中 的 一 
个 子 组 完成 。 该 子 组 的 其 他 成 员 将 拥有 对 象 的 过 时 的 拷贝 。 版 本 号 或 时 间 惟 可 以 用 来 决定 拷贝 是 否 是 
最 新 的 。 如 果 使 用 版 本 的 话 ， 那 么 ， 对 象 的 初始 状态 是 第 一 个 版 本 ， 并 且 经 过 每 一 个 变化 后 ， 我 们 有 
一 个 新 的 版 本 。 每 个 对 象 的 每 个 拷贝 有 一 个 版 本 号 ， 只 有 最 新 的 版 本 拥有 当前 版 本 号 ， 而 过 时 的 副本 
有 一 个 较 早 的 版 本 号 。 操 作 应 该 只 被 应 用 于 具有 当前 版 本 导 的 拷贝 。 

Gifford [1979a] 开发 了 一 个 文件 复制 方案 ， 其 中 一 定数 量 的 “选票 ”被 分 配给 一 个 逻辑 文件 在 一 
本 管理 器 上 的 每 个 物理 拷贝 。 选 票 可 以 看 成 是 一 个 对 使 用 特定 拷贝 的 需求 度 的 权重 。 每 个 read 操作 必 
须 在 它 对 任何 最 新 捞 贝 进行 读 之 前 ， 先 获得 一 个 有 玉 个 选票 的 读 法 定数 ， 每 个 write 操作 必须 在 它 进 行 
更 新 操作 之 前 ， 获 得 一 个 有 多 个 选票 的 写法 定数 。 其 中 ， 对 一 个 副本 管理 器 组 ，R 和 下 的 设置 要 满足 
下 面条 件 : 

厂 > 总 选票 的 一 半 

R+W> Bk Si Bm 

这 就 确保 了 任何 一 对 (由 一 个 读 法 定数 和 一 个 写法 定数 或 两 个 写法 定数 组 成 )， 一 定 包含 相同 的 
拷贝 。 因 此 ， 在 分 区 出 现时 ， 不 可 能 在 不 同 的 分 区 中 进行 同一 拷贝 上 的 冲突 操作 。 

为 了 进行 一 个 read 操作 ， 首 先 必 须 通过 足够 多 的 版 本 号 查询 来 发 现 一 组 拷贝 ， 从 而 收集 一 个 读 法 
定数 ， 选 票 的 数量 不 得 少 于 尺 。 并 不 要 求 所 有 这 些 找 贝 都 是 最 新 的 。 由 于 每 个 读 法 定数 和 每 个 写法 定 
数 存在 重 春 ， 每 个 读 法 定数 必定 至 少 包括 一 个 当前 拷贝 read 操作 可 在 任何 最 新 的 拷贝 上 执行 。 

为 了 进行 一 个 write 操作 ， 首 先 必须 通过 足够 多 的 版 本 号 查询 来 收集 一 个 写法 定数 ， 法 定数 中 的 成 
员 必 须 具 有 最 新 的 拷贝 ， 并 且 选 票 的 数量 不 得 少 于 殉 。 如 果 没 有 足够 的 最 新 措 员 ， 那 么 一 个 非 当 前 的 
文件 会 被 一 个 当前 文件 的 拷贝 所 替代 ， 以 使 法 定数 得 以 建立 。 由 写法 定数 中 的 每 个 副本 管理 器 进行 
write 操作 中 指定 的 更 新 ,增加 所 有 对 象 副 本 的 版 本 号 ，write 操作 的 完成 要 报告 给 客户 。 

然后 ， 在 剩 下 可 用 的 副本 管理 器 中 的 文件 由 写 操作 以 后 台 任 务 方 式 进行 更 新 。 任 何 副 本 管理 器 ， 
如 果 它 的 文件 拷贝 的 写 版 本 号 比 写 法 定数 拥有 的 文件 拷贝 的 版 本 号 旧时 ， 那 么 它 上 的 这 个 文件 整个 由 
来 自 最 新 更 新 过 的 副本 管理 器 的 一 个 副本 赫 换 掉 。 

在 Gifford 的 复制 方案 中 ， 两 阶段 读 - 写 加 锁 可 以 用 来 进行 并 发 控制 。 用 准备 的 版 本 号 查询 来 获得 
读 法 定数 RR 时 ,使 得 每 个 联系 到 的 副本 管理 器 都 被 设置 了 一 个 读 锁 。 当 在 写法 定数 W 中 执行 wite 操 
作 时 ， 每 个 被 涉及 的 副本 管理 器 上 设置 了 一 个 写 锁 (这 里 ， 锁 被 用 在 与 版 本 号 一 样 的 粒度 )。 由 于 一 
个 读 法 定数 和 一 个 写法 定数 重修， 并且 两 个 写法 定数 也 重合， 因此 这 些 锁 保 证 了 单 措 贝 囊 行 化 。 

副本 管理 器 组 的 配置 能 力 ” 加 权 投 票 算法 的 一 个 重要 性 质 是 副本 管理 器 组 能 够 通过 配置 来 提供 
不 同 的 性 能 或 可 靠 性 。 一 旦 通过 它 的 选票 配置 得 到 一 个 副本 管理 器 组 的 可 靠 性 和 性 能 ，write 操作 的 
可 靠 性 和 性 能 的 提高 可 以 通过 减少 殉 而 得 以 增加 ， 同 样 可 以 通过 减少 来 提高 read 操作 的 可 靠 性 和 
性 能 。 

该 算法 既 允 许 使 用 客户 机 本 地 磁盘 的 文件 拷贝 ， 也 允许 使 用 文件 服务 器 上 的 文件 。 客 户 机 上 的 文 
件 拷贝 被 认为 是 弱 代 表 (weak representative) ， 并 且 总 是 给 它们 分 配 0 个 选票 。 这 就 确保 它们 不 会 包含 
在 任何 法 定数 中 。 一 旦 获得 了 其 个 读 法 定数 ， 一 个 read 操作 就 可 以 在 任何 最 新 的 拷贝 上 执行 。 因 些 ， 
如 果 一 个 文件 的 本 地 拷贝 是 最 新 的 ， 则 读 操 作 可 以 在 该 拷贝 上 执行 。 弱 代表 能 用 来 加 快 read 操作 
速度 。、 

Gifford 的 例子 Gifford 给 出 了 三 个 例子 ， 这 三 个 例子 通过 给 一 个 组 上 的 不 同 副本 管理 器 分 配 权重 
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和 分 配 适 当 的 丸和 更 ， 从 而 显示 出 不 同 的 特性 。 现 在 基于 下 面 的 表 再 现 Gifford 的 例子 。 阻 塞 概率 表示 
在 进行 一 个 读 或 写 操作 时 ， 不 能 获得 法 定 组 的 概率 。 假 设 在 发 请 求 时 ， 任 何 副 本 管理 器 不 可 用 的 概率 
均 为 0. 01。 阻 塞 概率 据 此 计算 。 

例 1 用 来 在 一 个 有 若干 弱 代 表 和 单个 副本 管理 器 的 应 用 中 ， 配 置 一 个 具有 高 读 写 率 的 文件 。 复 制 
用 来 提高 系统 的 性 能 ， 而 不 是 可 靠 性 。 局 域 网 上 有 一 个 副本 管理 器 ， 它 可 以 在 75ms 内 被 访问 。 两 个 客 
户 已 经 选择 在 它们 的 本 地 磁盘 上 做 弱 代 表 ， 它 们 能 在 65ms 内 访问 ， 结 果 导 致 了 低 延 时 和 更 少 的 网 络 
流量 。 

例 2 用 来 配置 一 个 有 中 等 读 写 率 的 文件 ， 该 文件 主要 通过 局 域 网 被 访问 。 局 域 网 上 的 副本 管理 器 
被 分 配 两 个 选票 ， 远 程 网 络 上 的 每 个 副本 管理 器 被 分 配 一 个 选票 。 读 可 以 在 本 地 副本 管理 器 上 执行 ， 
但 写 操作 必须 访问 本 地 副本 管理 器 和 一 个 远程 副本 管理 器 。 如 果 本 地 副本 管理 器 出 现 故障 ， 文 件 在 只 
读 模 式 下 仍然 是 可 用 的 。 客 户 为 了 获得 更 低 的 读 延 时 ， 可 以 创建 本 地 的 弱 代 表 。 

3 用 来 配置 一 个 具有 非常 高 读 写 率 的 文件 ， 例 如 在 一 个 具有 三 副本 管理 器 环境 下 的 系统 目录 。 
客户 能 从 任何 副本 管理 器 上 读 ， 文 件 不 可 用 的 概率 很 低 。 更 新 必须 作用 于 所 有 的 拷贝 。 同 样 ， 为 了 降 
低 读 操作 延 时 ， 客 户 可 以 在 本 地 机 器 上 创建 弱 代 表 。 








例 1 例 2 例 3 
延迟 副本 1 75 75 75 
(ms) 副本 2 65 100 750 
副本 3 65 750 750 
选票 配置 副本 1 1 2 1 
副本 2 0 1 1 
副本 3 0 1 1 
法 定数 大 小 R 1 2 1 
wW 1 3 3 
文件 包 得 到 的 性 能 
读 延迟 65 75 75 
阻塞 概率 0.01 0.0002 0.000 001 
写 延迟 75 100 750 
阻塞 概率 0.01 0.0101 0.03 


法 定数 共识 方法 的 主要 缺点 是 ， 由 于 需要 从 丸 个 副本 管理 器 中 收集 一 个 恋 法 定数 ， 因 此 read 操作 
的 性 能 被 降低 了 。 

Herlihy [1986] 为 抽象 数据 类 型 扩展 了 法 定数 共识 方法 。 这 种 方法 允许 考虑 操作 的 语义 ， 因 此 提 
高 了 对 象 的 可 用 性 。Herlihy 的 方法 使 用 时 间 稚 而 不 是 版 本 号 ， 这 样 做 的 好 处 是 不 需要 为 了 在 执行 一 个 
写 操 作 前 得 到 一 个 新 版 本 号 而 进行 版 本 号 查询 。Heaihy 声称 的 主要 好 处 是 使 用 语义 知识 可 以 提高 法 定 
组 选择 的 数量 。 

Dynamo 中 的 法 定数 共识 ”Dynamo 使 用 类 似 法 定数 的 方法 来 维护 副本 之 间 的 一 致 性 。 与 Gifford 模 
式 一 样 ， 读 和 写 操作 必须 分 别 用 尺 和 亚 个 结 点 ， 并 且 RR+ 殉 >N。 在 Dynamo}, N 是 有 副本 的 结 点 的 
数 。 多 和 忍 的 值 影响 可 用 人 性、 持续 性 和 一 致 性 。DeCandia 等 [2007] 认为 Dynamo 中 一 个 常规 配置 是 
[N, R, W]=(3, 2, 2]. 

在 分 区 的 情况 下 ，Gifford 的 法 定数 仅 能 在 一 个 “大 多 数 ” 分 区 上 操作 。 但 Dynamo 使 用 “马虎 的 
法 定数 ”， 该 法 定数 与 N 个 结 点 相关 ， 副 本 被 存在 替代 结 点 上 ， 在 目标 结 点 恢复 时 ， 由 替代 结 点 传 
递 值 。 


18. 5.6 虚拟 分 区 算法 


该 算法 由 El Abbadi 等 [1985] 提出 ,结合 了 法 定数 共识 和 可 用 拷贝 两 种 算法 。 当 出 现 分 区 时 ,法 
定数 共识 能 够 正确 地 工作 ， 而 可 用 拷贝 对 于 read 操作 的 代价 更 低 。 虚 拟 分 区 (virtual partition) 是 真实 
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分 区 的 一 个 抽象 ,包含 了 一 个 副本 管理 器 的 集合 。 注 意 ， 术 语 “ 网 络 分 区 ”是 指 将 副本 管理 器 分 成 许 
多 部 分 的 屏障 ， 而 术语 “虚拟 分 区 ”是 指 这 些 部 分 本 身 。 尽 管 它们 并 不 通过 组 播 通 信 相 连接 , 但 虚拟 
分 区 还 是 很 像 18. 2. 2 节 介 绍 的 组 视图 。 如 果 虚 拟 分 区 包含 充足 的 副本 管理 器 而 具有 访问 对 象 的 读 法 定 


” 数 和 写法 定数 ， 那 么 一 个 事务 能 在 该 虚拟 分 区 中 操作 。 在 这 种 情况 下 ， 这 个 事务 使 用 可 用 拷贝 算法 ， 


这 样 做 的 好 处 是 read 操作 只 要 访问 某 个 对 象 的 单一 拷贝 ， 因 此 可 以 通过 选择 “最 近 ” 的 拷贝 来 提高 性 
能 。 如 果 一 个 副本 管理 器 发 生 故 障 ， 并且 在 事务 执行 期 间 内 虚拟 分 区 发 生变 化 ， 那 么 这 个 事务 将 被 放 
弃 。 由 于 所 有 存活 的 事务 以 同样 的 次 序 发 现 副本 管理 器 的 故障 和 恢复 ， 从 而 确保 了 事务 的 单 拷贝 可 串 
行 化 。 : 

每 当 虚 拟 分 区 的 一 个 成 员 检 测 到 它 不 能 访问 其 他 成 员 时 (例如 ， 当 一 个 write 操作 没 被 确认 时 )， 
它 试图 创建 一 个 具有 读 、 写 法 定数 的 新 虚拟 分 区 。 

例如 ， 设 想 有 4 个 副本 管理 器 人 X、7Y 和 2， 每 一 个 副本 管理 器 都 有 一 个 选票 ， 并 且 写 和 读 法 定 
数 是 尺 =2 和 下 =3。 开 始 ， 所 有 的 副本 管理 器 可 相互 连接 。 只 要 它们 相连 ,它们 就 能 使 用 可 用 副本 算 
法 。 例 如 ， 一 个 事务 了 由 read 操作 后 紧 跟 着 write 操作 组 成 ， 它 将 在 一 个 副本 管理 器 (如 V) 上 执行 
read 操作 ， 并 且 所 有 的 4 个 副本 管理 器 上 进行 write 操作 。 

假设 事务 了 开始 在 了 上 执行 read 操作 时 , V 仍 和 X、Y、Z 相连 。 假 设 发 生 了 如 图 18-12 所 示 的 网 
络 分 区 ，V、X 在 一 部 分 ，Y、2Z 各 在 不 同 的 分 区 。 然 后 ， 当 事务 了 试图 执行 write 操作 时 , 了 将 注意 到 
它 已 不 能 连接 到 Y 和 2 了。 

事务 7 Ps 网 络 分 区 


副本 管理 器 
x y Y 2 
图 18-12 两 个 网 络 分 区 


当 一 个 副本 管理 器 不 能 和 它 先前 连接 的 副本 管理 器 相连 时 ， 它 不 断 地 尝试 ， 直 到 它 可 以 创建 一 个 
新 的 虚拟 分 区 为 止 。 例 如 ,，V 将 不 断 试图 连接 了 上 和 Z， 直 到 它们 中 的 一 个 或 两 个 回应 它 为 止 ， 像 
图 18-13 所 示 了 能 被 访问 那样 。 副 本 管理 器 V、X 和 了 Y 组 成 了 一 个 虚拟 分 区 ， 因 为 它们 足以 形成 读 法 定 
组 和 写法 定 组 。 





虚拟 分 区 网 络 分 区 
副本 管理 器 
e ° © O 
x y Y Z 
图 18-13 ”虚拟 分 区 


在 一 个 事务 执行 期 间 (例如 事务 了 已 经 在 一 个 副本 管理 器 上 执行 了 一 个 操作 ) ， 这 时 创建 了 一 个 
新 的 虚拟 分 区 ， 那 么 这 个 事务 必须 放弃 。 此 外 ， 一 个 新 的 虚拟 分 区 内 的 副本 必须 通过 拷贝 其 他 副本 来 
进行 更 新 。 可 以 使 用 与 在 Gifford 的 算法 一 样 的 版 本 号 来 决定 哪个 拷贝 是 最 新 的 。 所 有 的 副本 必须 是 最 
新 的 ， 因 为 read 操作 在 任 一 个 副本 上 执行 。 

虚拟 分 区 的 实现 ”每 个 虚拟 分 区 都 有 一 个 创建 时 间 、 一 个 潜在 成 员 的 集合 和 一 个 实际 成 员 的 集合 。 
创建 时 间 是 逻辑 时 间 惟 。 虚 拟 分 区 的 实际 成 员 具 有 相同 的 创建 时 间 和 成 员 关系 〈 一 个 它们 可 以 与 之 通 
信 的 副本 管理 器 的 共享 视图 ) 。 例 如 ， 在 图 18-13 中 ,潜在 的 成 员 是 V、 立 、Y、2Z， 而 实际 的 成 员 是 V, 
XAY, 
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一 个 新 虚拟 分 区 的 创建 可 以 由 一 个 合作 协议 来 实现 。 这 个 协议 由 发 起 协议 的 那些 副本 管理 器 可 访 
问 的 潜在 成 员 来 执行 。 几 个 副本 管理 器 可 能 同时 试图 创建 一 个 新 的 虚拟 分 区 。 例 如 ， 设 想 在 图 18-12 
中 的 副本 管理 器 了 2Z 不 断 地 试图 连接 其 他 的 副本 管理 器 ， 一 段 时 间 以 后 ， 网 络 分 区 部 分 获得 恢复 ， 虽 
然 了 不 能 和 2 if, 但 是 两 个 组 V、X、Y 和 V、X、Z 却 能 相互 通信 。 此 时 存在 的 一 个 危险 是 创建 两 个 
相互 重 和 到 的 虚拟 分 区 ， 如 图 18-14 中 的 V M Vo 


虚拟 分 区 万 虚拟 分 区 成 


图 18-14 ”两 个 重合 的 虚拟 分 区 


考虑 在 两 个 虚拟 分 区 中 执行 不 同事 务 的 影响 。 在 V、X、Y 中 的 事务 的 读 操 作 可 能 被 应 用 于 副本 管 
理 器 Y 上 ， 在 这 种 情况 下 ， 它 的 读 锁 将 不 会 和 另 一 个 虚拟 分 区 中 事务 的 写 操作 设置 的 写 锁 相 冲突 。 重 
秋 虚 拟 分 区 和 单 副本 串 行 化 相 违背 。 

协议 的 目标 是 创建 一 个 一 致 的 新 虚拟 分 区 ， 即 使 在 协议 期 间 发 生 了 真正 的 分 区 。 创 建 一 个 新 虚拟 
分 区 的 协议 有 两 个 阶段 ， 参 见 图 18-15。 


阶段 1: 
So Rete Tes Join 的 参数 是 一 个 用 于 新 虚拟 分 区 的 逻 


辑 时 间 
: me 它 比 较 请 求 的 逻辑 时 间 稚 和 自己 当前 虚拟 分 区 的 


时 间 
一 如 果 请 求 中 的 逻辑 时 间 惟 大 ， 那 么 它 同 意 加 入 并 回复 Yes。 
一 如 果 请 求 中 的 逻辑 时 间 戳 小， 那么 它 拒绝 加 入 并 回复 No。 


阶段 2: 

。 如 果 发 起 者 收 到 了 足够 的 Yes 应 答 ， 从 而 获得 读 和 写法 定数 ， 那 么 它 通 过 发 送 一 个 
Confirmation 消 息 给 同意 加 入 的 站 点 来 创建 一 个 新 的 虚拟 分 区 。 该 虚拟 分 区 的 创建 时 
间 稚 和 实际 成 员 列 表 以 参数 形式 发 送 。 

3 a ee 并 记录 它 的 创建 时 间 稚 和 实际 

1 ° 











图 18-15 创建 一 个 虚拟 分 区 


一 个 在 阶段 1 回复 Yes 的 副本 管理 器 并 不 属于 一 个 虚拟 分 区 ， 直 到 它 在 阶段 2 中 收 到 相应 的 Con- 
firmation 消息 为 止 。 
在 上 面 的 例子 中 ， 图 18-12 中 显示 的 副本 管理 器 了 、 Z 都 试图 创建 一 个 虚拟 分 区 ， 具有 较 高 逻辑 时 
间 共 的 副本 管理 器 ， 最 终 创建 一 个 虚拟 分 区 。 
当 分 区 并 不 经 常 发 生 时 ， 这 是 一 个 有 效 的 方法 。 在 一 个 虚拟 分 区 内 ， 每 个 事务 使 用 可 用 副本 算法 。 


18.6 小 结 


复制 对 象 是 在 分 布 式 系统 中 获得 具有 高 性 能 、 高 可 用 性 和 容错 性 质 的 服务 的 重要 手段 。 我 们 描述 
了 复制 服务 的 体系 结构 ， 其 中 副本 管理 器 掌管 着 对 象 的 副本 ， 前 端 使 得 复制 对 客户 透明 。 客 户 、 前 端 
和 副本 管理 器 既 可 以 是 分 开 的 进程 ， 也 可 以 在 同一 个 地 址 空间 中 。 

本 章 首先 阅 述 了 系统 模型 ， 其 中 每 个 钦 辑 对 象 都 由 一 组 物理 副本 来 实现 。 可 以 通过 组 通信 来 非常 
方便 地 更 新 这 些 副 本 。 我 们 扩展 了 组 通信 内 容 ， 以 包括 组 视图 和 视图 同步 通信 。 

我 们 定义 了 线性 化 能 力 和 顺序 一 致 性 作为 容错 服务 的 正确 性 准则 。 这 些 准 则 表达 了 即使 这 些 对 象 
是 复制 的 ， 服 务必 须 怎样 保证 它们 与 逻辑 对 象 集合 的 单个 映像 等 价 。 最 有 实际 意义 的 准则 是 顺序 一 
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致 性 。 

在 被 动 ( 主 备份 ) 复制 中 ， 通 过 直接 将 所 有 请 求 发 送 到 一 个 选 出 的 副本 管理 器 ， 并 在 其 出 故障 时 
选 出 一 个 备份 副本 管理 器 代替 它 ， 便 可 以 获得 容错 。 在 主动 复制 中 ， 所 有 的 副本 管理 器 独立 地 处 理 所 
有 的 请 求 。 通 过 组 通信 ， 可 以 方便 地 实现 这 两 种 复制 形式 。 

我 们 接 下 来 考虑 了 高 可 用 性 服务 。 闲 聊 和 Bayou 都 允许 客户 在 发 生 网 络 分 区 时 在 本 地 副本 上 进行 
更 新 。 在 任 一 系统 中 ， 副 本 管理 器 在 恢复 连接 时 相互 交换 更 新 。 闲 聊 以 松弛 因果 一 致 狂 的 代价 来 获得 
它 所 具有 的 最 高 的 可 用 性 。Bayou 提供 了 更 强 的 最 终 一 致 性 保证 ,采用 了 自动 冲突 检测 以 及 操作 变换 
技术 来 解决 冲突 。Coda 是 一 个 高 可 用 文件 系统 ， 它 使 用 版 本 向 量 检测 潜在 的 更 新 冲突 。 

最 后 ， 我 们 考虑 了 复制 数据 上 的 事务 的 性 能 。 为 这 种 情况 ， 可 以 用 主 备 份 体 系 结构 ， 也 可 以 用 前 
端 可 以 与 任何 副本 管理 器 通信 的 体系 结构 。 我 们 讨论 了 事务 系统 如 何 考虑 副本 管理 器 出 现 故障 和 网 络 
分 区 。 即 使 在 某 些 并 不 是 所 有 的 副本 管理 器 都 可 达 的 环境 下 ， 可 用 拷贝 、 法 定数 共识 和 虐 拟 分 区 的 技 
术 仍 能 使 事务 中 的 操作 继续 进行 。 


练习 

18.1 三 台 计算 机 一 起 提供 一 个 复制 服务 。 制 造 商 声称 每 一 台 计 算 机 平均 5 天 出 一 次 故障 ;一 次 故障 一 般 
需要 4 小 时 才能 修复 。 那 么 这 项 复制 服务 的 可 用 性 如 何 ? (58 766 页 ) 

18.2 试 解释 为 什么 一 个 多 线程 的 服务 器 不 能 看 成 是 一 个 状态 机 。 (第 768 页 ) 


18.3 在 一 个 多 用 户 的 游戏 中 ， 多 个 玩家 在 一 个 公用 屏幕 上 移动 游戏 人 物 。 游 戏 的 状态 被 复制 到 玩家 各 自 
的 工作 站 和 一 台 服 务 器 上 ， 这 个 服务 器 包含 从 全 局 上 控制 游戏 的 服务 ， 例 如 碰撞 检测 等 。 更 新 被 组 
播 给 所 有 的 副本 。 考 虑 下 列 条 件 : 
1) 这 些 游戏 人 物 之 间 可 能 相互 射 弹 ， 并 且 一 次 打击 会 使 不 幸 的 击 中 者 变 得 虚弱 。 那 么 这 里 需要 什么 
类 型 的 更 新 次 序 ? 提示 : WAR “BR”. “RE” M “SR” EF, 
2) 玩家 可 能 使 用 一 个 外 接 的 操作 设备 来 玩 这 个 游戏 ， 那 么 对 这 个 设备 的 “ 捡 起 设备 ”操作 需要 什 
么 样 的 次 序 ? (第 770 页 ) 
18.4 一 个 路 由 器 将 进程 p 与 另外 两 个 进程 9 和 7 分 开 。p 组 播 消息 m 后 路 由 器 就 出 现 故 障 。 如 果 组 通信 系 
统 是 视图 同步 的 ， 接 下 来 进程 p 将 会 怎样 ? (第 773 页 ) 
18.5 给 你 一 个 具有 全 序 组 播 操作 的 组 通信 系统 和 一 个 故障 检测 器 。 是 否 能 够 只 利用 这 些 组 件 ， 来 构造 一 
个 视图 同步 组 通信 系统 ? (第 773 页 ) 
18.6 看 一 下 同步 有 序 的 组 播 操作 ， 其 传递 排序 语义 和 视图 同步 组 通信 系统 中 的 传递 视图 的 语义 相同 。 
在 某 个 服务 中 ， 操 作 之 间 是 因果 排序 的 。 该 服务 支持 一 个 列表 中 的 多 个 用 户 在 这 个 服务 上 执行 


操作 。 试 解释 为 什么 从 列表 中 删除 用 户 应 该 是 同步 有 序 操作 ? (第 773 页 ) 
18.7 ”由 状态 迁移 引起 的 一 致 性 问题 是 什么 ? (第 774 页 ) 
18.8 ”对象 上 的 一 个 操作 下 引起 o 调用 另 一 个 对 象 o' 。 现 在 打算 复制 o 而 不 是 o'。 解 释 由 于 涉及 在 o" 
上 的 调用 而 引起 的 问题 ， 并 给 出 一 个 解决 方案 。 (第 773 页 ) 

18.9” 试 解释 线性 化 和 顺序 一 致 性 之 间 的 不 同 。 一 般 情况 下 ， 为 什么 在 实现 中 后 者 更 实际 些 ? 
(第 777 页 ) 
18.10 “在 被 动 复制 系统 中 ， 试 解释 为 什么 允许 备份 继续 处 理 读 操 作 会 导致 顺序 一 致 性 ， 而 不 是 线性 化 
执行 ? (第 780 页 ) 
18. 11 闲聊 体系 结构 能 够 应 用 于 练习 18.3 描述 的 分 布 式 游戏 吗 ? (第 783 页 ) 
18.12 在 闲聊 体系 结构 中 ， 为 什么 一 个 副本 管理 器 需要 保持 一 个 “副本 ”时 间 蕉 和 一 个 “ 值 ” 时 
fa] BR? (第 786 页 ) 


18.13 ”在 闲聊 系统 中 ， 前 端 有 一 个 向 量 时 间 戳 (3，5,， 7) ， 代 表 着 它 从 一 个 有 三 个 副本 管理 “的 组 中 
的 成 员 接收 到 的 数据 。 相 应 的 ， 这 三 个 副本 管理 器 分 别 有 向 量 时 间 蕉 (5，2,，8) 、(4, 5, 6) 
和 (4,，5，8)。 哪 一 个 或 哪 一 些 副本 管理 器 能 立刻 满足 前 端 发 出 的 一 个 查询 ?前 端 最 后 的 时 间 
BEA? 哪 一 个 副本 管理 器 能 立刻 从 前 端 合成 一 个 更 新 ? (第 788 页 ) 


18. 14 
18. 15 


18. 16 


18. 17 


18. 18 


18. 19 
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试 解释 为 什么 让 某 些 副本 管理 器 只 读 就 可 以 提高 闲聊 系统 的 性 能 ? (第 792 页 ) 
对 于 一 个 简单 的 房间 预定 应 用 ， 写 出 (如 Bayou 中 使 用 的 ) 依赖 性 检查 和 合并 过 程 的 伪 代 码 。 
(第 793 页 ) 
在 Coda 文件 系统 中 ， 为 什么 在 更 新 多 个 服务 器 上 一 个 文件 副本 时 ， 有 时 需要 用 户 手工 干预 ? 
(第 800 页 ) 
请 设计 一 种 方案 来 集成 文件 系统 目录 的 两 个 副本 ,它们 能 够 在 断 链 操作 下 执行 单独 的 更 新 。 试 
使 用 Bayou 的 操作 变换 方法 或 者 Coda 方法 。 (第 801 页 ) 


在 数据 项 4 和 B 上 应 用 可 用 副本 复制 ， 因 此 具有 副本 4.、4, M Ba BL. BSE TMU 定义 

如 下 : 

T:Read(A) ; Write(B,44) ;U:Read(B) ; Write(A,55) 

假定 在 副本 上 应 用 两 阶段 加 锁 ， 设计 一 个 了 和 U0 的 交错 序列 。 解 释 为 什么 在 了 和 U0 的 执行 中 

出 现 副 本 故障 时 ， 只 用 锁 不 能 确保 单 副本 串 行 化 。 利 用 这 个 例子 来 解释 本 地 验证 是 如 何 确保 单 

副本 串 行 化 的 。 (38 805 页 ) 

Gifford 的 法 定数 共识 复制 在 服务 器 XY、Y 和 2Z 上 使 用 ， 这 些 服 务 器 都 有 数据 项 4 和 B 的 副本 。 

A 和 B 副 本 的 初始 值 是 100, FF TEX, YZ LA 和 8B 的 选票 是 1。 同 样 对 于 4 和 B, R=W= 

2。 一 个 客户 读 4 的 值 然 后 将 它 写 到 B 上 。 

1) 当 客 户 执行 这 些 操作 时 ， 出 现 了 一 个 分 区 ， 将 服务 器 开 和 了 与 服务 器 了 分 隔 开 了 。 描 述 当 
客户 能 访问 服务 器 下 和 了 时 ， 获 得 的 法 定数 和 发 生 的 操作 。 

2) 描述 当 客户 仅 能 访问 服务 器 Z 时 ， 获 得 的 法 定数 和 发 生 的 操作 。 

3) 分 区 修复 了 ， 然 后 另 一 个 分 区 发 生 了 ,结果 三 和 2 与 了 分 隔 开 了 。 描 述 当 客户 能 访问 服务 
器 三 和 2 时， 获得 的 法 定数 和 发 生 的 操作 。 (第 810 页 ) 
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移动 和 无 处 不 在 计算 


本 章 将 探讨 移动 和 无 处 不 在 计算 领域 ， 这 些 领域 是 由 于 设备 小 型 化 和 无 线 连接 的 出 现 而 产生 的 。 
从 广义 上 说 ， 移 动 计算 主要 研究 关于 便携 设备 之 间 的 连通 问题 ; 无 处 不 在 计算 则 研究 日 常 物 理 世 界 中 
计算 设备 的 增 基 集成 问题 。 

本 章 将 介绍 一 种 常用 的 系统 模型 ， 它 强调 移动 和 无 处 不 在 系统 的 易 变性 ， 即 在 任何 给 定 环境 中 的 
用 户 、 设 备 和 软件 组 件 都 在 频繁 地 改变 。 之 后 ， 本 章 还 将 研究 涉及 易 变性 和 易 变 性 物理 基础 的 几 个 研 
究 领 域 ， 包 括 当 实体 移动 、 失 效 或 自发 出 现时 ， 软 件 组 件 之 间 如 何 实现 互 连 和 互 操 作 ; 系统 如 何 通过 
感知 和 上 下 文敏 感 信息 与 物理 世界 集成 ; 在 易 变 、 物 理 集成 的 系统 中 出 现 的 安全 性 和 私密 性 问题 以 及 
适合 计算 能 力 和 10 资源 相对 缺乏 的 小 型 设备 的 技术 。 本 章 的 最 后 会 以 Cooltown 项 目 进行 实例 研究 ， 
Cooltown 项 目 具有 为 移动 和 无 处 不 在 计算 设计 的 一 种 面向 人 的 、 基 于 Web 的 体系 结构 。 


19.1 简介 


设备 的 小 型 化 和 无 线 连 接 的 出 现 导 致 了 移动 和 无 处 不 在 计算 的 产生 。 从 广义 上 说 ， 移 动 计 算 研究 
的 是 日 常 物理 世界 中 移动 设备 的 连通 问题 ; 无 处 不 在 计算 研究 的 是 物理 世界 中 设备 的 增 基 集成 问题 。 
随 着 设备 越 来 越 小 ， 我 们 能 将 它们 带 在 身边 或 穿戴 它们 ， 而 且 我 们 能 将 它们 散人 到 物理 世界 的 许多 物 
体 中 一 一 不 只 是 安装 在 我 们 熟悉 的 桌面 设备 中 或 服务 器 架 上 。 而 且 ， 随 着 无 线 连接 越 来 越 普遍 ， 我 们 
可 以 将 这 些 新 型 便携 设备 互 连 ， 或 者 连接 到 传统 的 个 人 计算 机 或 服务 器 上 。 

本 章 将 概述 移动 计算 (第 18 章 的 断 链 操作 处 理 已 经 涉及 这 个 主题 ) 和 无 处 不 在 计算 的 各 个 方面 。 
本 章 侧重 它们 的 共有 特性 和 它们 同 传统 分 布 式 系统 的 不 同 。 虽 然 本 章 将 给 出 该 领域 最 新 的 进展 , 但 本 
章 将 更 关注 开放 性 问题 ， 而 不 是 解决 方案 。 

本 章 将 首先 介绍 移动 和 无 处 不 在 计算 的 起 源 ， 并 介绍 若干 子 领域 ， 包 括 可 穿戴 计算 、 手 持 计 算 和 
上 下 文敏 感 计算 。 之 后 ， 本 章 还 将 围绕 这 些 领 域 的 特性 一 一 易 变 性 ， 即 在 任 一 给 定 环境 下 用 户 、 设 备 
和 软件 组 件 都 在 频繁 地 改变 一 一 给 出 一 个 系统 模型 。 本 章 随 后 将 讨论 涉及 易 变 性 和 易 变性 物理 基础 的 
几 个 主要 研究 领域 ， 包 括 当 实体 移动 、 失 效 或 自发 出 现时 ， 软 件 组 件 之 间 如 何 实现 互 连 和 互 操作 ; R 
统 如 何 通过 感知 和 上 下 文敏 感 信息 与 物理 世界 集成 ; 易 变 的 、 物 理 上 集成 的 系统 所 引发 的 安全 性 和 私 
密 性 问题 以 及 适合 计算 能 力 和 1/0 资源 相对 缺乏 的 小 型 设备 的 技术 。 本 章 最 后 以 Cooltown 项 目 作 为 实 
例 研 究 对 象 ，Cooltown 为 移动 和 无 处 不 在 计算 设计 了 一 种 面向 人 的 、 基 于 Web 的 体系 结构 。 

移动 和 手持 计算 “移动 计算 最 初 作为 一 种 能 够 保持 用 户 所 携带 的 个 人 电脑 与 其 他 机 器 的 连接 的 计 
算 范 型 出 现 。 大 约 到 1980 年 才 出 现 适 合 携带 的 个 人 计算 机 ， 并 且 它 们 可 以 使 用 调制 解 调 器 通过 电话 线 
与 其 他 电脑 连接 。 技 术 进 化 大 致 沿 着 这 个 理念 ， 并 获得 了 更 好 的 功能 和 性 能 : 今天 的 便携 产品 有 笔记 
本 电脑 、 网 络 笔 记 本 或 平板 计算 机 ， 它 们 均 与 无 线 连接 (包括 红外 线 、WiFi、 蓝 牙 、GPRS 或 3G 通信 
BAR) 相 绪 合 。 

技术 进化 的 另 一 条 路 径 产 生 了 手持 计算 。 利 用 手持 设备 ,包括 “智能 ”移动 电话 (智能 电话 )、 
个 人 数字 助理 (Personal Digital Assistant, PDA) 和 其 他 的 更 专门 化 的 手持 操作 设备 。 智 能 电话 和 PDA 
可 以 运行 许多 不 同类 型 的 应 用 程序 , 但 是 与 笔记 本 电脑 相 比 ， 它 们 必须 在 大 小 、 电 池 容 量 和 相对 有 限 
的 处 理 能 力 、 小 屏幕 和 其 他 资源 限制 间 进 行 折 中 。 制 造 商 正在 不 断 为 手持 设备 装配 与 笔记 本 电脑 相似 
的 无 线 连 接 功 能 。 

手持 计算 的 一 个 有 趣 的 趋势 是 模糊 了 PDA、 移 动 电话 和 专业 手持 设备 《例如 照相 机 和 基于 GPS 的 
导航 设备 ) 之 间 的 差别 。 智 能 手机 通过 运行 Nokia 的 Symbian 和 其 他 制造 商 的 操作 系统 如 Google 的 
Android, Apple 的 iOS 或 Microsoft 的 Windows Phone 7 获得 了 类 似 于 PDA 的 计算 功能 。 它 们 可 以 装配 摄 
像 头 和 其 他 类 型 的 特殊 配件 ， 使 它们 成 为 某 种 专业 手持 设备 的 替代 唱 。 例 如 ， 用 户 能 通过 智能 手机 上 
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的 照相 机 读 取 条 形 码 ， 从 而 获得 价格 比较 信息 。 智 能 手机 也 经 常 有 内 置 的 GPS 设备 用 于 导航 和 其 他 与 
定位 有 关 的 目的 。 

Stojmenovic [2002] 介绍 了 无 线 通 信 的 原理 和 协议 ， 包 括 本 章 所 研究 的 系统 需要 解决 的 网 络 层 的 
两 个 主要 问题 。 第 一 个 问题 是 当 移 动 设备 进出 基站 覆盖 范围 时 ， 如 何 保证 它们 的 持续 连接 ， 基 站 是 提 
供 无 线 覆 盖 区 域 的 基础 设施 。 第 二 个 问题 是 在 没有 基站 的 地 方 ， 设 备 集 合 之 间 如 何 进行 无 线 通信 ( 见 
19.4.2 节 自 组 织 网 络 给 出 的 简洁 的 处 理 方 法 )。 通 常 ， 在 两 个 给 定 设备 之 间 无 法 建立 直接 的 无 线 连接 
时 ， 上 面 两 个 问题 都 会 出 现 。 通 信和 需要 经 由 几 个 无 线 或 有 线 网 段 来 完成 。 下 面 两 个 因素 导致 无 线 覆 盖 
必须 划分 为 若干 子 履 盖 。 第 一 ， 无 线 网 络 的 范围 越 大 ， 就 有 越 多 的 设备 竞争 网 络 的 有 限 带 宽 。 第 二， 
考虑 能 量 的 使 用 ， 传 输 一 个 无 线 信号 所 需 的 能 量 与 它 传输 距离 的 平方 成 正比 ， 但 是 我 们 关注 的 很 多 设 
备 的 能 量 有 限 。 

无 处 不 在 计算 1988 年 ，Mark Weiser 提出 了 无 处 不 在 计算 这 个 术语 [Weiser 1991 ] 。 无 处 不 在 计 
算 有 时 也 称 为 普 适 计算 ， 这 两 个 术语 通常 被 认为 是 同 义 的 。“ 无 处 不 在 ”的 意思 是 “处 处 存在 ”。 
Weiser 看 到 了 计算 设备 的 普及 ， 并 相信 它们 会 让 我 们 使 用 计算 机 的 方式 产生 一 场 革命 性 的 变革 。 

首先 ， 他 预测 世界 上 每 个 人 会 使 用 多 个 计算 机 ， 我 们 可 以 把 它 与 之 前 的 个 人 计算 机 革命 ， 即 追求 
每 个 人 拥有 一 台 计 算 机 ， 相 提 并 论 。 尽 管 这 听 起 来 简单 ， 但 是 与 之 前 的 主机 时 代 〈 那 时 是 一 台 计 算 机 
有 多 个 用 户 ) 相 比 ， 这 种 改变 将 对 我 们 使 用 计算 机 的 方式 产生 巨大 的 影响 。Weiser 的 “一 个 人 ， 多 人 台 
计算 机 ”的 理念 与 通常 的 理解 有 很 大 的 不 同 ,通常 的 理解 是 每 人 有 多 台 计 算 机 一 一 一 台 在 工作 单位 ， 
一 台 在 家 里 ， 一 台 笔 记 本 电脑 ， 可 能 还 有 一 部 随身 携带 的 智能 电话 。 更 确切 地 说 ， 在 无 处 不 在 计算 中 ， 
为 了 适应 不 同 的 任务 ， 计 算 机 的 增加 是 在 形式 上 和 功能 上 ， 而 不 只 是 在 数量 上 。 

例如 ， 一 个 房间 内 的 所 有 固定 的 显示 屏 和 书写 工具 〈 白 板 、 书 、 纸 张 、 便 签 等 ) ， 被 儿 十 个 、 甚 
至 上 百 个 带 有 电子 屏幕 的 计算 机 代替 。 书 本 以 电子 方式 出 现 ， 使 读者 可 以 搜索 文本 、 查 找 词 意 、 在 
Web 上 搜索 相关 的 想法 并 查看 连接 的 多 媒体 内 容 。 现 在 ,设想 在 所 有 的 写作 工具 中 嵌入 计算 功能 。 例 
如 ， 笔 和 各 种 标记 工具 能 存储 用 户 写 的 和 画 的 内 容 ， 并 且 可 以 在 周围 的 多 台 计 算 机 之 间 收 集 、 拷 贝 和 
移动 这 些 多 媒体 内 容 。 该 场景 没有 考虑 可 用 性 和 经 济 性 问题 ， 而 且 它 只 涉及 我 们 生活 的 一 小 部 分 ,但 
它 给 了 我 们 关于 “计算 处 处 存在 ”可 能 是 什么 样子 的 一 个 想法 。 

Weiser 预测 的 第 二 个 转变 是 计算 机 将 要 “消失 ”一 一 它们 将 “渗透 于 日 常生 活 中 ， 直 至 不 可 或 
饼 ”。 这 在 很 大 程度 上 只 是 一 种 心理 概念 ， 正 如 人 们 认为 家 具 是 理所当然 该 有 的 ， 因 而 很 少 注意 到 它 
们 。 这 反映 出 计算 机 将 融和 人 到 我 们 的 日 常用 品 中 去 一 一 正常 情况 下 ， 我 们 不 认为 这 些 物 品 具有 计算 能 
力 ， 正 如 我 们 并 不 认为 洗衣 机 或 车 辆 是 “计算 设备 ”， 即 使 它们 由 嵌入 在 其 中 的 微 处 理 器 控制 一 一 有 
些 汽车 中 大 约 有 100 个 微 处 理 器 。 

虽然 某 些 设备 不 可 见 的 是 合适 的 〈 例 如 在 汽车 中 嵌入 计算 机 系统 的 情况 ) ， 但 是 这 不 是 我 们 所 关 
心 的 设备 ， 尤 其 是 移动 用 户 经 常 携带 的 设备 。 例 如 ， 移 动 电话 在 当前 是 一 种 最 普遍 的 设备 ， 它 的 计算 
能 力 是 可 见 的 ， 并 且 无 疑 的 ， 它 也 应 该 是 可 见 的 。 

可 穿戴 计算 ”用 户 能 够 在 他 们 身上 携带 可 穿戴 设备 ， 可 以 附 在 他 们 衣服 的 外 面 或 里 面 ， 也 可 以 像 
戴 手表 、 珠 宝 和 眼镜 一 样 戴 在 身上 。 与 我 们 上 面 提 到 的 手持 设备 不 同 ， 这 些 设 备 经 常 在 无 需 用 户 操纵 
的 情况 下 运行 . 它们 通常 具有 特定 的 功能 。 一 个 早期 的 例子 是 “活动 徽章 (active badge)”， 它 是 一 种 
可 以 夹 在 用 户 衣 服 上 的 小 型 计算 设备 ， 其 功能 是 定期 通过 一 个 红外 线 发 送 装 置 广播 一 个 (与 用 户 相关 
的 ) 标识 符 [Want et al 1992, Harter and Hopper 1994] 。 环 境 中 的 设备 对 徽章 发 送 的 信息 做 出 响应 ， 从 
而 对 用 户 的 出 现 做 出 响应 ;红外 线 发 送 的 作用 范围 有 限 ， 所 以 只 有 用 户 在 附近 时 才能 被 设备 发 现 。 例 
如 ， 一 个 电子 屏幕 可 以 依照 用 户 的 偏好 (例如 默认 的 绘画 颜色 和 线 宽度 ) 定制 行为 来 响应 用 户 的 出 现 
(如 图 19-1 所 示 ) 。 类 似 地 ， 可 以 根据 屋内 的 人 已 记录 的 偏好 来 调整 房间 的 空调 和 灯光 的 设置 。 

上 下 文敏 感 计算 ”活动 徽章 一 -或 者 说 是 其 他 设备 对 它 的 出 现 做 出 的 反应 ， 即 作为 一 个 例子 解释 
了 上 下 文敏 感 计算 。 上 下 文敏 感 计算 是 移动 和 无 处 不 在 计算 中 一 个 很 重要 的 子 领 域 。 这 就 是 计算 机 系 
统 根据 物理 环境 自动 调整 它们 的 行为 。 这 些 环 境 原则 上 是 物理 可 测量 的 或 可 觉察 的 ， 例 如 用 户 的 出 现 、 
一 天 的 时 间或 大 气 的 状况 。 一 些 依赖 条 件 确定 起 来 比较 简单 ， 例 如 根据 时 间 、 日 期 和 地 理 位 置 判 断 现 
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在 是 不 是 晚上 。 但 其 他 依赖 条 件 需 要 经 过 复杂 的 处 理 来 检测 。 例 如 ， 考 虑 一 个 上 下 文敏 感 的 手机 ， 它 
只 在 适合 的 时 候 才 响 铃 。 特 别 是 ， 在 电影 院 ， 它 应 该 自动 切换 到 “振动 ”而 不 是 “ 响 铃 "。 但 是 要 它 
感知 用 户 是 在 电影 院 里 看 电影 ， 还 是 站 在 电影 院 的 门廊 上 ， 却 不 是 件 容 易 的 事情 〈 假 定位 置 传感器 的 
测量 并 不 准确 ) 。19. 4 节 将 会 更 详细 地 介绍 上 下 文 。 
2. 红外 线 传感器 探测 用 户 ID 
用 户 ID 
© 1. 带 有 Active Badge 的 用 户 走 进 房间 
| 
红外 线 


a 


3. 显示 对 用 户 做 出 的 响应 | 
| 


i 


Hello Roy | 











图 19-1 一 个 对 带 有 活动 徽章 的 用 户 能 做 出 响应 的 房间 


易 变 系统 


从 分 布 式 系统 的 观点 看 ， 移 动 和 无 处 不 在 计算 或 我 们 已 经 介绍 的 子 领域 (更 确切 地 说 ， 还 包括 我 
们 省 略 的 子 领域 ， 例 如 可 触摸 计算 [Ishii and Ullmer 1997] 和 类 似 Wellner 数字 桌面 的 增强 现实 领域 
[Wellner 1991] ) 之 间 没 有 本 质 的 区 别 。 在 本 节 中 ， 我 们 将 给 出 一 个 称 为 易 变 系统 (volatile system) 的 
模型 ， 它 包括 了 以 上 所 有 领域 的 核心 的 分 布 式 系统 特征 。 

我 们 之 所 以 称 本 节 所 描述 的 系统 是 “ 易 变 的 ”， 是 因为 与 本 书 其 他 部 分 描述 的 大 多 数 系统 不 同 ， 
某 些 在 其 他 系统 中 异常 的 改变 在 该 系统 中 是 很 平常 的 。 移 动 和 无 处 不 在 系统 中 的 用 户 、 硬 件 和 软件 组 
件 是 高 度 动 态 的 ， 并 且 其 变化 是 不 可 预计 的 。 我 们 对 这 些 系统 有 时 使 用 另 一 个 词 : 自发 的 〈spontane- 
ous) ， 在 文献 中 该 词 出 现在 词组 自发 网 络 中 。 易 变性 的 相关 形式 包括 : 

。 设备 和 通信 链接 故障 ; 

。 通信 特征 (例如 带宽 ) 的 改变 ; 

。 设备 上 的 软件 组 件 之 间 的 关联 (逻辑 上 的 通信 关系 ) 的 建立 和 中 断 。 

这 里 ， 术语“ 组件 ”包括 任何 的 软件 单元 ， 例 如 对 象 或 进程 ， 而 不 管 它 是 进行 互 操 作 中 的 一 个 客 
户 、 一 个 服务 器 还 是 一 个 对 等 方 。 

第 18 章 已 经 介绍 了 一 些 处 理 改 变 的 方法 ， 即 处 理 故障 和 断 连 操作 的 方法 。 但 是 那里 的 解决 方案 将 
进程 和 通信 故障 作为 异常 而 不 是 规则 ， 而 且 是 以 存在 元 余 的 处 理 资 源 为 前 提 的 。 易 变 系 统 不 但 打破 了 
前 述 假 设 ， 并 且 加 入 了 更 多 的 变化 现象 ， 特 别 是 组 件 间 的 关联 变化 频繁 。 

在 我 们 深入 介绍 易 变 性 之 前 ， 有 必要 澄清 一 些 可 能 的 误解 。 易 变性 不 是 移动 和 无 处 不 在 系统 定义 
的 一 个 属性 : 其 他 类 型 的 系统 也 显示 出 一 种 或 多 种 形式 的 易 变 性 ， 但 是 它们 既 不 是 移动 的 也 不 是 无 处 
不 在 的 。 一 个 很 好 的 例子 是 对 等 计算 ,例如 文件 共享 应 用 ( 见 第 10 章 ) ， 其 中 参与 进程 集合 和 进程 之 
间 的 关联 都 在 频繁 地 发 生 改 变 。 移 动 和 无 处 不 在 计算 的 不 同 之 处 在 于 ， 由 于 它们 与 物理 世界 集成 的 方 


` 式 ， 它 们 表现 出 了 上 述 易 变性 的 所 有 形式 。 我 们 将 对 物理 集成 和 如 何 产生 易 变 性 进行 更 多 介绍 。 但 是 


物理 集成 不 是 分 布 式 系统 的 属性 ， 而 易 变性 则 是 分 布 式 系统 的 属性 。 因 此 我 们 采用 易 变性 这 个 术语 。 
我 们 将 在 本 节余 下 的 部 分 描述 智能 空间 ， 它 是 易 变 系统 存在 的 环境 ; 之 后 我 们 将 描述 移动 和 设备 


无 处 不 在 设备 ， 它 们 的 物理 和 贫 辑 连接 ， 以 及 在 低 信任 和 低 私 密 性 下 的 后 果 。 


智能 空间 ”物理 空间 非常 重要 ， 因 为 它 形成 了 移动 和 无 处 不 在 计算 的 背景 。 移 动 性 发 生 在 物理 空 


” 间 之 间 ; 无 处 不 在 计算 柑 人 在 物理 空间 内 。 智 能 空间 (smart space) 是 具有 嵌 人 服务 的 物理 空间 ， 也 


就 是 说 ， 服 务 只 在 或 原则 上 在 物理 空间 内 提供 。 可 以 将 计算 设备 引入 野外 那里 没有 基础 设施 ) 来 执 
行 应 用 程序 ， 例 如 环境 监测 。 但 是 更 典型 的 移动 设备 和 无 处 不 在 系统 在 任何 时 间 都 存在 于 一 个 有 计算 


”能 力 的 建筑 的 一 部 分 或 车 辆 环境 中 ， 例 如 房间 、 建 筑 、 广 场 或 火车 车 亲 。 在 这 些 情况 下 ， 智 能 空间 通 


常 包括 一 个 相对 稳定 的 计算 基础 设施 ， 基 础 设施 包括 常规 的 服务 器 、 设 备 〈 例 如 打印 机 和 显示 器 外 
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传感器 和 一 个 无 线 网 络 基础 设施 〈 能 够 连接 到 互联 网 ) 。 

在 智能 空间 中 存在 几 种 移动 或 “出 现 和 消失 ”。 第 一 ， 物 理 移动 性 。 智 能 空间 可 以 作为 访问 和 离 
开 它 们 的 设备 的 环境 。 例 如 ， 用 户 可 以 携带 或 穿戴 设备 进入 和 离开 ; 机 器 人 其 至 可 以 自己 移入 和 移出 
空间 。 第 二 ,逻辑 移 动 性 。 移 动 进程 或 代理 可 能 移 人 或 移出 智能 空间 ,或 者 移 人 或 移出 用 户 的 个 人 设 
备 。 而 且 ， 设 备 的 物理 移动 可 能 导致 其 内 部 组 件 的 逻辑 移动 。 然 而 ， 不 论 组 件 的 移动 是 否 是 由 于 它 的 
物理 设备 的 移动 造成 的 ， 不 会 发 生 有 意义 的 逻辑 移动 ， 除 非 组 件 改变 了 它 与 其 他 组 件 的 关联 。 第 三 ， 
用 户 可 以 增加 相对 静止 的 设备 〈 例 如 多 媒体 播放 器 ) 使 其 在 空间 中 长 期 存在 。 相 反 ， 用 户 也 可 以 从 空 
间 中 撤 出 旧 设 备 。 例 如 ， 考 虑 智能 家 居 (smart home) 的 发 展 ， 居 住 者 经 过 一 段 时 间 之 后 ， 就 会 以 一 
种 相对 无 计划 的 方式 改变 其 中 的 设备 布置 [Edwards and Grinter 2001 ] 。 最 后 ,设备 可 能 失效 并 从 空间 
中 “消失 ”。 

从 分 布 式 系 统 观 点 看 ， 有 一 些 现象 是 类 似 的 。 在 每 种 情况 下 ， 一 个 软件 组 件 可 以 出 现在 一 个 业已 
存在 的 智能 空间 中 ,并且 如 果 有 感 兴趣 的 事件 形成 ， 那 么 它 将 与 空间 (至少 是 暂时 的 ) 集成 ; 或 者 一 
个 组 件 通过 移动 、 关 闭 或 者 失效 从 空间 中 消失 。 在 上 述 情况 下 ， 任 何 特定 的 组 件 不 一 定 能 够 区 分 “ 访 
问 ” 设 备 和 “基础 设施 ”设备 。 

然而 ， 在 设计 一 个 系统 时 ， 要 抽取 最 重要 的 区 别 。 易 变 系 统 之 间 的 一 个 重要 区 别 是 变化 的 频率 。 
用 于 处 理 一 天 中 若干 组 件 出 现 或 消失 的 算法 〈 例 如 ， 在 智能 家 居 内 ) 与 用 于 处 理 任 何 时 候 至 少 有 一 个 
组 件 变 化 的 算法 〈 例 如 ， 在 一 个 拥挤 的 城市 ， 移 动 电话 之 间 使 用 蓝牙 通信 实现 的 系统 ) 有 很 大 的 不 
同 。 此 外 ， 虽 然 以 上 的 出 现 和 消失 现象 看 上 去 相似 ， 但 依然 存在 很 大 的 区 别 。 例 如 ， 从 安全 性 的 角度 
看 ， 用 户 的 设备 进入 智能 空间 是 一 件 事 ， 外 面 的 软件 组 件 进 入 属于 该 空间 的 基础 设施 设备 中 则 是 另 一 
件 事 。 

设备 模型 ” 随 着 移动 和 无 处 不 在 计算 的 出 现 ， 一 种 新 型 的 计算 设备 正在 成 为 分 布 式 系统 的 一 部 分 。 
该 设备 的 能 量 供给 和 计算 资源 有 限 ; 它 有 与 物理 世界 交互 的 途径 : 传感器 〈 例 如 光线 检测 器 ) 或 制 动 
器 (例如 可 以 控制 移动 的 可 编程 工具 )。 因 此 ， 我 们 的 设备 模型 必须 考虑 下 列 特征 : 

AREE: 物理 世界 中 的 便携 式 或 髋 人 式 设备 通常 使 用 电池 ， 并 且 设 备 越 小 、 越 轻 ， 它 的 电池 容 
量 就 越 小 。 从 时 间 〈 可 能 一 个 用 户 拥有 几 百 台 这 样 的 设备 ) 和 物理 访问 而 言 ， 更换 电池 或 充电 是 不 方 
便 的 。 计 算 、 访 问 内 存 或 其 他 形式 的 存储 动作 都 会 消耗 宝贵 的 能 量 。 无 线 通 信和 是 典型 的 能 量 密集 型 应 
用 。 此 外 ， 接 收 一 条 消息 所 消耗 的 能 量 与 发 送 消 息 所 需 能 量 相差 不 多 。 即 使 处 于 “待机 ”模式 ， 在 此 
模式 下 网 络 接口 准备 接收 消息 ， 也 需要 消耗 相当 可 观 的 能 量 [Shih et al. 2002]。 因 此 ， 如 果 设 备 要 在 
给 定 的 电池 容量 下 持续 尽 可 能 长 的 时 间 ， 算 法 就 需要 对 设备 消耗 的 能 量 敏感 ， 特 别 是 在 消息 复杂 度 方 
面 ， 最 后 ， 由 于 电池 放电 ， 设 备 故障 的 可 能 性 也 会 增加 。 

资源 限制 : 就 处 理 器 速度 、 存 储 能 力 和 网 络 带 宽 而 言 ， 移 动 设备 和 无 处 不 在 设备 的 计算 资源 有 限 。 
部 分 原因 是 我 们 若 提 高 这 些 特性 ， 能 量 消耗 就 会 随 之 增加 。 而 且 ， 若 要 实现 设备 便携 或 甬 和 人 到 日 常 物 
品 中 ， 就 需要 将 它们 在 物理 上 做 得 很 小 ， 并 对 制作 过 程 加 以 限制 ， 限 制 每 个 结 点 上 晶体 管 的 数目 。 这 
会 引发 两 个 问题 ， 尽管 资源 有 限 ， 如 何 设 计 出 可 在 结 点 上 用 合理 时 间 执 行 完成 的 算法 ; 如 何 利用 环境 
中 的 资源 来 增强 结 点 贫乏 的 资源 。 

传感器 和 制动器 : 为 了 使 设备 与 物理 世界 集成 -一 特别 地 ， 使 得 它们 是 上 下 文敏 感 的 一 一 给 设备 
配备 了 传感器 (sensor) 和 制动器 (actuator) 。 传 感 器 是 测量 物理 参数 并 把 值 传 给 软件 的 设备 ; 相反 
地 ， 制 动 器 是 影响 物理 世界 的 由 软件 控制 的 设备 。 有 多 种 类 型 的 组 件 在 在 。 就 传感器 而 言 ， 例 如 ， 有 
测量 位 置 、 方 向 、 负 和 载 以 及 光线 和 声音 的 传感器 。 制 动 器 包括 可 编程 的 空调 控制 器 和 发 动机 。 传 感 器 
的 一 个 重要 的 问题 是 精度 ， 因 为 精度 很 有 限 ， 所 以 可 能 导致 虚假 的 行为 ， 例 如 一 个 不 合适 的 响应 导致 
位 置 错误 。 不 精确 可 能 是 这 类 设备 的 一 个 特性 ， 因 为 它们 要 足够 廉价 以 便 可 以 到 处 部 署 。 

如 上 描述 的 设备 可 能 听 起 来 有 些 奇特 ， 然 而 ， 它们 不 但 在 商业 上 是 可 行 的 ， 而 且 有 些 甚至 是 批量 
生产 的 。 这 样 的 例子 有 mote 和 智能 手机 。 

mote: mote (#442) [Hill et al. 2000; www. xbow. com] 是 用 于 满足 应 应 用 程序 (例如 环境 感知 ) 的 
自治 操作 的 设备 。 它 们 被 设计 成 可 嵌入 环 境 的 、 可 编程 的 ， 这 样 它们 能 无 线 地 发 现 彼此 并 且 在 它们 之 
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间 传 送 感知 到 的 数据 。 例 如 ， 倘 若 有 一 场 森 林 火 灾 ， 那 么 散布 在 森林 周围 的 多 个 mote 就 能 感知 到 不 正 
常 的 高 温 ， 并 且 通 过 其 他 mote 结 点 把 信息 通知 给 一 个 更 强 的 设备 ， 该 设备 能 够 把 这 种 情况 传达 给 紧急 
IRS. mote 的 最 基本 形式 是 : 具有 一 个 低 功 率 处 理 器 (一 个 微 控 制 器 ) ， 该 处 理 器 在 内 部 闪存 中 运行 
TinyOS 操作 系统 [Culler et al. 2001]; 用 于 记录 数据 的 内 存 ; 一 个 短程 、 双 向 地 使 用 “工业 、 科 学 和 
医学 ”(ISM) 波段 的 无 线 电 收 发 机 。 还 可 以 包含 多 种 传感器 模块 。mote 也 称 为 “智能 尘埃 ”， 这 反映 
了 这 些 设备 微小 的 尺寸 ， 尽 管 在 写 书 时 它们 的 尺寸 大 约 是 6x3 x1 厘米 (不 包括 电池 组 和 传感器 )。 
Smart- its 以 一 种 类 似 的 形式 因素 (form factor) 提供 类 似 mote 的 功能 [ www. smart- its. org], 19.4.2 节 
将 讨论 类 似 mote 的 设备 在 无 线 传感器 网 络 中 的 使 用 。 

智能 手机 : 智能 手机 在 我 们 考虑 的 系统 中 是 一 种 非常 不 同 的 设备 。 它 们 的 主要 功能 是 通信 和 有 照相。 
但 是 ， 运 行 诸如 Symbian, Android 3 iOS 操作 系统 后 ， 它 们 就 可 编写 多 种 应 用 程序 。 除 了 它们 的 广 域 
数据 连接 之 外 ， 通 常 有 红外 线 (DA) 或 蓝牙 短程 无 线 网 络 接口 使 得 它们 可 以 彼此 连接 ， 或 与 PC 和 
辅助 设备 连接 。 它 们 经 常 包含 感知 设备 (如 GPS 传感器 ) 来 决定 它们 的 位 置 ， 包 含 磁力 计 来 感知 它们 
的 方向 ， 包 含 加 速 器 来 感知 迁移 的 动作 。 此 外 ， 它 们 可 以 运行 软件 从 相机 图 像 中 识别 符号 〈 例 如 条 形 


码 ) ， 使 得 它们 成 为 物理 物体 〈 例 如 产品 ) 上 “编码 数值 ”的 传感器 ， 这 些 传感器 信息 可 用 于 访问 相 


关 的 服务 。 例 如 ， 用 户 可 以 用 他 们 的 照相 手机 从 产品 盒子 上 的 条 形 码 发 现 商店 产品 的 说 明 [Kindberg 
20021, 

易 变 连接 ”本章 感 兴趣 的 设备 都 有 某 种 形式 的 无 线 连接 ， 而 且 可 能 会 有 多 种 。 不 同 的 连接 技术 
(蓝牙 、WiFi、3G 等 ) 在 它 标 称 的 带宽 和 延迟 、 能 量 消 耗 以 及 是 否 需 要 为 通信 支付 费用 等 方面 都 有 不 
同 。 但 是 连接 的 易 变 性 〈 在 运行 时 设备 之 间 的 连接 或 断 链 状态 的 和 易 变 性 和 服务 质量 的 易 变 性 ) 对 系统 
属性 也 有 很 大 的 影响 。 

断 链 : 无 线 断 链 比 有 线 断 链 更 可 能 发 生 。 我 们 描述 的 很 多 设备 是 移动 的 ， 并 且 可 能 超出 了 与 其 他 
设备 的 操作 下 离 或 者 遇 到 了 无 线 电 障碍 物 ， 例 如 建筑 物 。 即 使 设备 静止 时 ， 也 可 能 有 移动 的 用 户 或 车 
辆 成 为 阻塞 物 而 导致 断 链 。 设 备 间 还 存在 多 跳 无 线路 由 的 问题 。 在 自 组 织 路 由 (ad hoc routing) 中 ， 
一 组 设备 之 间 彼 此 通信 ， 而 不 依赖 于 其 他 设备 : 它们 相互 协作 在 它们 之 间 路 由 所 有 的 包 。 以 森林 中 的 
mote 为 例 ，mote 可 能 与 其 他 mote 在 无 线 电 范围 内 直接 通信 ， 但 是 不 能 将 它 的 高 温 读数 传送 给 紧急 服 
务 ， 因 为 所 有 包 都 要 经 过 的 较 远 的 那个 mote 出 现 了 故障 。 

变化 的 带宽 和 延迟 : 导致 完全 断 连 的 因素 也 可 能 导致 带宽 和 延迟 的 显著 变化 ， 因 为 它们 带 来 错误 
率 的 变化 。 随 着 错误 率 的 上 升 ， 越 来 越 多 的 包 被 丢弃 。 这 在 本 质 上 导致 了 吞吐 率 降低 。 然 而 由 于 高 层 
协议 的 超时 ， 情 况 可 能 会 更 加 恶化 ， 很 难 设置 合适 的 超时 数值 来 适应 明显 变化 的 环境 。 如 果 与 当前 的 
错误 情况 相 比 ， 超 时 值 太 大 ， 那 么 延迟 和 吞吐 量 就 会 受 影响 。 如 果 超 时 值 太 小 ， 可 能 会 增加 拥塞 而 且 
浪费 能 量 。 

自发 互 操作 ”在 易 变 系统 中 ， 随 着 组 件 的 移动 或 其 他 组 件 的 出 更， 组件 会 改变 与 它们 进行 组 件 间 
通信 的 组 件 集合 。 我 们 使 用 术语 关联 (association) 来 表示 逻辑 关系 ， 当 一 对 给 定 的 组 件 中 的 至 少 一 个 
组 件 与 另 一 个 组 件 在 某 一 定义 好 的 时 间 段 内 通信 时 ， 逻 辑 关 系 就 会 产生 ; 使 用 术语 互 操作 (interopera- 
tion) 表示 它们 在 关联 中 的 交互 。 注 意 ， 关 联 不 同 于 连接 : 两 个 组 件 〈 例 如 ， 笔 记 本 电脑 的 邮件 客户 
端 和 邮件 服务 器 ) 可 能 当前 已 经 断 链 ， 但 仍然 可 以 保持 关联 。 

在 一 个 智能 空间 中 ,组 件 可 以 充分 利用 与 本 地 组 件 交互 的 机 会 而 改变 关联 。 举 一 个 简单 的 例子 来 
说 明 机 会 : 无 论 设备 出 现在 哪儿 ， 它 都 可 以 使 用 本 地 打印 机 。 类 似 地 ， 设 备 可 能 想 为 本 地 环境 中 的 客 
户 提供 服务 一 一 例如 ， 用 户 穿戴 的 (例如 ， 在 他 的 皮带 上 ) 的 “个 人 服务 器 ”[ Want et al. 2002] ， 它 
给 附近 设备 提供 关于 用 户 的 或 属于 用 户 的 数据 。 当 然 ， 某 些 静 态 关 联 在 易 变 系统 中 仍然 有 意义 。 例 如 ， 
一 台 笔 记 本 电脑 跟随 它 的 主人 走 遍 世界 ， 但 仍然 仅 与 一 个 固定 的 邮件 服务 器 通信 。 

为 了 将 这 种 类 型 的 关联 放 到 互联 网 上 服务 的 大 背景 中 ， 图 19-2 给 出 了 三 种 类 型 的 自发 关联 的 例子 
(在 右边 ) ， 并 与 预 配置 关联 〈 在 左边 ) HER 

预 配置 关联 是 服务 驱动 的 。 也 就 是 说 ， 需 要 长 期 使 用 一 种 服务 的 客户 通过 预 配 置 以 便 与 之 关联 。 
配置 客户 的 开销 (包括 用 所 需 服务 的 地 址 建立 它们 ) 与 使 用 某 种 服务 的 长 期 收益 相 比 是 很 小 的 。 
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HE 自发 关联 | 


人 工 驱 动 : 
服务 驱动 : Web 浏 览 器 和 Web 服 务 器 
Email 客 户 和 服务 器 
数据 驱动 : 
P2P 文 件 共 享 应 用 
物理 驱动 : 
移动 系统 和 无 处 不 在 系统 











图 19-2 预 配置 与 自发 关联 的 例子 


在 图 19-2 的 右边 是 按 常规 变化 的 关联 的 类 型 ， 包 括 由 人 工 操作 驱动 、 由 对 特定 数据 的 需求 驱动 或 
由 物理 环境 的 改变 驱动 。 我 们 认为 ，Web 浏览 器 和 Web 服务 之 间 的 关联 是 自发 的 和 人 工 驱 动 的 hu- 
man-driven) : 用 户 作 出 动态 的 和 (从 系统 角度 看 ) 不 可 预测 的 点 击 ， 这 样 便 可 访问 服务 实例 。Web 是 
个 真正 的 易 变 系统 ， 对 于 它 的 成 功 而 言 ， 最 重要 的 是 关联 的 改变 通常 涉及 可 和 忽略 的 开销 一 一 Web 网 页 
的 作者 已 经 做 了 配置 工作 。 

互联 网 上 的 对 等 网 络 应 用 程序 (例如 文件 共享 程序 ) 也 是 易 变 系统 ,但 它们 主要 是 数据 驱动 的 
(data-driven), HHA RATA 例如， 所 寻找 内 容 的 名 字 ) ,但 是 ， 正 是 提供 给 它 的 数据 值 导致 对 
等 结 点 通过 一 个 基于 数据 的 分 布 式 发 现 算法 与 另 一 个 对 等 结 点 关联 ， 这 个 结 点 与 它 以 前 可 能 从 未 关联 
过 ， 并 且 以 前 也 未 存储 过 该 结 点 的 地 址 。 

本 章 讨论 的 移动 和 无 处 不 在 系统 展示 出 关联 的 大 量 物理 驱动 (physically driven) 的 自发 性 。 关 联 
的 建立 和 破坏 (有 时 由 人 完成 ) 依据 组 件 当 前 的 物理 环境 ， 尤 其 是 它们 的 千 近 程度 。 

低 信 任 和 私密 性 ”正如 第 11 ANR, 分布 式 系统 的 安全 基于 可 信任 的 硬件 和 软件 一 一 可 信任 的 
计算 基础 。 但 是 由 于 自发 的 互 操作 ， 易 变 系 统 中 信任 是 成 问题 的 : 能 自发 关联 的 组 件 间 的 信任 基础 
是 什么 ? 在 智能 空间 之 间 移 动 的 组 件 可 能 属于 独立 的 个 体 或 组 织 并 且 对 彼此 或 可 信任 的 第 三 方 了 解 
很 少 。 

私密 性 是 与 用 户 相关 的 主要 问题 ， 用 户 可 能 由 于 对 系统 的 感知 能 力 而 不 信任 系统 。 在 智能 空间 中 ， 
传感器 的 出 现 意味 着 它 可 以 在 先前 无 法 看 到 的 、 可 能 很 大 的 范围 内 跟踪 用 户 。 通 过 上 下 文敏 感 服务 
《如 在 房间 的 例子 中 ， 可 依据 房间 中 用 户 的 喜好 来 设置 空调 ) ， 用 户 可 以 让 他 人 知道 他 们 在 哪儿 和 他 们 
在 那儿 做 什么 。 更 糟糕 的 是 ， 他 们 可 能 并 没有 意识 到 他 们 被 感知 了 。 即 使 用 户 没 有 暴露 他 们 的 身份 ， 
其 他 用 户 也 可 能 了 解 到 并 查找 出 到 底 是 哪 一 个 人 。 例 如 ， 通 过 观察 工作 地 点 与 住址 之 间 的 有 规律 的 路 
径 ， 并 且 将 那些 和 住址 与 工作 地 点 间 信 用 卡 的 偶尔 使 用 相关 联 。 


19.2 关联 


正如 上 面 所 解释 的 ， 设 备 容易 在 智能 空间 中 出 其 不 意 地 出 现 和 消失 。 尽 管 如 此 ， 易 变 组 件 需 要 互 
操作 一 一 最 好 没有 用 户 的 干预 。 也 就 是 说 ， 出 现在 智能 空间 中 的 设备 需要 能 通过 自 举 将 自己 引导 进 局 
域 网 络 ， 从 而 与 其 他 设备 通信 ， 并 且 能 在 智能 空间 中 适当 地 关联 ， 

网 络 自 举 一 一 通常， 通信 发 生 在 局 域 网 内 。 设 备 必须 首先 在 局 域 网 内 获得 一 个 地 址 〈 或 注册 一 个 
已 存在 的 地 址 ， 例 如 移动 下 地 址 ) ; 它 可 能 还 要 获得 或 注册 一 个 名 字 。 

关联 一 一 设备 上 的 组 件 或 者 关联 到 智能 空间 中 的 服务 ， 或 者 为 智能 空间 的 其 他 组 件 提供 服务 ， 或 
者 两 者 都 有 。 

网 络 自 举 目前 已 有 很 好 的 方法 来 解决 网 络 中 设备 的 集成 问题 。 某 些 解 决 方案 依赖 智能 空间 中 可 
访问 的 服务 器 。 例 如 ，DHCP 服务 器 〈 见 3.4.3 节 ) 能 提供 他 地址 、 其 他 网 络 和 DNS 参数 ,设备 通过 
给 一 个 众所周知 的 广播 地 址 发 出 一 个 查询 获得 这 些 信息 。 智 能 空间 中 的 服务 器 也 可 以 给 设备 分 配 一 个 
唯一 的 域名 ; 或者， 如 果 已 经 开放 了 对 互联 网 的 访问 ， 那 么 设备 可 以 使 用 一 个 动态 DNS 更 新 服务 来 注 
册 它 的 新 的 下 地址 ， 以 取代 一 个 静态 的 域名 。 
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一 个 很 有 趣 的 情况 是 在 没有 任何 服务 基础 设施 的 情况 下 ， 如 何在 智能 空间 中 (其 至 其 外 ) 分 配 网 
络 参 数 。 这 对 于 简化 智能 空间 和 避免 可 能 失败 的 服务 间 的 依赖 是 很 有 帮助 的 。IPV6 标准 包括 一 个 无 服 
务 器 地 址 分 配 协议 。IETF 的 零 配置 联网 工作 组 [www. zeroconf. org] 正在 为 无 服务 器 地 址 分 配 、 域 名 
查找 、 组 播 地 址 分 配 和 服务 发 现 ( 见 下 一 节 ) 开发 标准 。 革 果 电 脑 公司 (Apple) 的 Bonjour 
[ www. apple. com I] 是 一 个 包含 上 述 大 多 数 功能 的 商业 实现 。 就 像 DHCP 访问 一 样 ， 所 有 的 这 些 方法 
通过 使 用 一 个 众所周知 的 地 址 在 局 域 网 内 进行 广播 或 组 播 。 任 何 设备 都 能 向 这 个 地 址 发 送 消息 ， 也 能 
监听 发 往 这 个 地 址 的 消息 ， 并 且 只 涉及 设备 自己 的 网 络 接口 。 

关联 问题 和 边界 原理 ”一 旦 设备 能 在 智能 空间 中 通信 ， 它 就 面临 着 关联 问题 : 在 智能 空间 中 如 何 
适当 地 关联 。 解 决 关联 问题 方案 必须 处 理 好 两 个 主要 的 方面 : 规模 和 范围 。 第 一 ， 在 智能 空间 中 可 能 
有 许多 设备 ， 并 且 在 这 些 设备 上 可 能 有 更 大 数量 级 的 软件 组 件 。 设 备 上 的 组 件 应 该 与 智能 空间 中 的 哪 
些 组 件 交互 《如果 有 的 话 )? 如 何 保证 这 种 选择 是 高 效 的 ? 

第 二 ， 当 解决 了 上 面 的 问题 后 ， 我 们 如 何 限 制 范围 ， 以 便 只 需要 考虑 来 自 智 能 空间 的 组 件 
(或 者 智能 空间 中 的 所 有 组 件 ) 而 不 是 其 外 的 成 千 上 万 个 组 件 ? 范围 并 不 仅仅 指 规模 问题 。 一 个 
智能 空间 通常 有 管理 和 领域 边界 ， 这 对 用 户 和 管理 者 有 非常 大 的 区 别 。 例 如 ， 如 果 宾 馆 房间 内 一 个 
设备 想 发 现 一 个 服务 (例如 打印 机 )， 它 就 必须 要 在 它 的 用 户 房间 内 (而 不 是 隔壁 房间 ) 找到 一 个 打 
印 机 。 同 样 的 ， 如 果 在 用 户 房间 内 有 合适 的 打印 机 ， 那 么 解决 方案 应 该 将 它 作 为 一 个 关联 的 候选 方案 
包括 在 内 。 

ARAE (boundary principle) 说 的 是 智能 空间 需要 有 系统 边界 ， 它 精确 地 对 应 于 一 个 有 意义 的 空 
间 ， 因 为 它 是 在 地 域 上 和 管理 上 有 正规 定义 的 【Kindberg and Fox 2001 ] 。 那 些 “ 系 统 边界 ”是 系统 定 
义 的 标准 ， 这 些 标 准 划 定 作用 域 但 不 一 定 限 制 关联 。 

一 个 尝试 解决 关联 问题 的 方案 是 通过 使 用 下 文 描述 的 一 个 发 现 服 务 。 发 现 服务 通常 基于 子 网 组 播 ， 
其 缺点 是 子 网 范围 可 能 与 智能 空间 中 可 用 的 服务 不 一 致 即 它们 破坏 了 边界 原理 。19. 2. 2 节 将 描述 一 些 
解决 方案 ， 这 些 解决 方案 依赖 物理 参数 和 人 工 输入 以 提供 更 精确 范围 的 关联 。 


19.2.1 发现 服务 


客户 使 用 发 现 服务 (discovery service) 来 发 现 智 能 空间 中 提供 的 服务 。 发 现 服务 是 一 个 目录 服务 
( 见 13.3 节 )， 智能 空间 的 服务 在 其 中 注册 ， 并 根据 它们 的 属性 进行 查找 ， 但 是 它们 的 实现 要 考虑 易 变 
系统 的 特性 。 这 些 特性 包括 : 第 一 ， 某 个 客户 所 要 求 的 目录 数据 (即将 要 查询 的 服务 的 属性 集合 ) 在 
运行 时 才能 确定 。 目 录 数 据 是 作为 客户 上 下 文 的 一 个 函数 被 动态 确定 的 ， 在 这 里 ， 客 户 上 下 文 是 指 发 
生 查 询 的 智能 空间 。 第 二 ， 智 能 空间 中 可 能 没有 存放 目录 服务 器 的 基础 设施 。 第 三 ， 目 录 中 注册 的 服 
务 可 能 自发 消失 。 第 四 ， 访 问 目录 使 用 的 协议 需要 对 它们 所 消耗 的 能 量 和 带宽 敏感 。 

目前 ， 存在 设备 发 现 服务 和 服务 发 现 服务 。 蓝 牙 包括 这 两 者 。 客 户 通 过 设备 发 现 获 得 设备 的 名 字 
和 地 址 。 遂 常 ， 他 们 随即 根据 额外 信息 (例如 由 人 选择 ) 选择 一 个 单独 的 设备 ， 并 查询 它 所 提供 的 服 
务 。 另 一 方面 ， 当 用 户 不 关心 他 们 所 需要 的 服务 由 哪个 设备 提供 ， 而 是 只 关心 服务 的 属性 时 ， 他 们 就 
可 以 使 用 服务 发 现 服务 。 本 节 的 描述 将 集中 在 服务 发 现 服务 上 ， 除 非特 别 说 明 ， 和 否则 这 就 是 我 们 之 前 
所 说 的 发 现 服务 的 意思 。 

发 现 服务 有 接口 用 于 自动 注册 和 注销 可 用 于 关联 的 服务 ， 也 为 客户 提供 一 个 接口 用 于 查找 当前 可 
用 的 服务 ， 从 而 继续 与 合适 的 服务 关联 。 图 19-3 给 出 这 些 接口 的 一 个 假想 的 、 简 化 的 例子 。 首 先 , 通 
过 函数 调用 用 给 定 的 地 址 和 属性 注册 可 用 的 服务 ， 并 且 通 过 调用 来 管理 随后 的 注册 。 之 后 ， 有 函数 调 
用 用 于 查找 与 所 需 属 性 的 规约 相 匹配 的 服务 。 可 能 有 零 个 或 多 个 服务 与 规约 匹配 ; 每 一 个 服务 返回 它 
的 地 址 和 属性 。 注 意 ， 仅 有 发 现 服务 不 能 启用 关联 : 还 需要 服务 选择 一 一 从 返回 集合 中 选择 一 个 服务 。 
这 可 以 由 编程 实现 ,或 者 通过 列 出 匹配 的 服务 让 用 户 来 选择 。 

已 开发 的 发 现 服务 包括 Jini 发 现 服 务 ( 见 下 节 的 讨论 )、 服 务 位 置 协议 [Guttman 1999] 、 意 图 命 
名 系统 [Adjie - Winoto et al. 1999] 、 简 单 服务 发 现 协议 〈 它 是 通用 即 插 即 用 项 目 [www. upnp. org] 的 
核心 ) 和 安全 的 服务 发 现 服务 [Czerwinski et al. 1999] 。 此 外 还 有 链 路 层 发 现 服务 ， 例 如 蓝牙 。 
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服务 注销 /注册 方法 : 说 明 

lease :=register (address, attributes) 用 给 定 的 属性 ， 在 给 定 的 地 址 注册 服务 ; 返回 一 个 租 期 
refresh(lease) 刷新 注册 时 返回 的 租 期 

deregister(lease) 删除 在 给 定 租 期 下 注册 的 服务 记录 

HARRAH - 

serviceSet :=query(attributeSpecification) 返回 一 个 注册 服务 的 集合 ， 其 属性 与 给 定 的 说 明 匹 配 

















图 19-3 发现 服务 的 接口 


设计 一 个 发 现 服务 所 需 处 理 的 问题 如 下 : 

会 能 耗 、 合 适 的 关联 : 理想 情况 下 ， 合 适 的 关联 应 该 在 无 任何 人 为 控制 因素 下 进行 。 第 一 ， 查 询 
(query) 操作 (参见 图 19-3) 返回 的 服务 集合 应 该 是 合适 的 一 一 它们 应 该 是 智能 空间 中 存在 的 精确 符 
合 查询 的 服务 。 第 二 ， 应 该 通过 编程 或 者 利用 少量 的 人 工 输入 选择 满足 用 户 需 要 的 服务 。 

服务 描述 和 查询 语言 : 整体 目标 是 匹配 客户 请 求 的 服务 。 预 先 假设 一 种 语言 用 于 描述 可 用 服务 ， 
另 一 种 语言 用 于 表示 服务 请 求 。 查 询 和 描述 语言 应 该 一 臻 或 可 翻译 ) ， 并 且 它 们 的 表达 能 力 应 该 紧 
跟 新 设备 和 服务 的 发 展 。 

智能 空间 特定 的 发 现 : 我 们 需要 一 种 机 制 以 便 让 设备 访问 适合 它们 当前 物理 环境 的 发 现 服务 的 一 
个 实例 (或 范围 ) 一 一 这 是 一 种 设备 不 需要 预先 知道 该 服务 的 名 字 或 地 址 的 机 制 。 实 际 上 ， 发 现 服务 
仅 通过 在 与 它 交互 的 子 网 的 有 限 范围 内 的 组 播 才能 与 某 一 智能 空间 产生 关联 ， 稍 后 我 们 将 说 明 这 一 点 。 

目录 实现 : 逻辑 上 ， 发 现 服务 的 每 个 实例 都 包括 可 用 服务 的 一 个 可 查询 的 目录 。 有 多 种 方式 可 实 
现 这 样 一 个 目录 ， 这 些 方法 所 需 的 网 络 带 宽 、 所 提供 的 服务 发 现 的 及 时 性 和 能 量 消耗 都 不 相同 。 

WBF HRB: 易 变 系统 中 的 任何 服务 都 要 有 效 而 体面 地 处 理 一 个 客户 的 消失 。 发 现 服务 把 客户 作 
为 服务 ， 应 恰当 地 处 理 服务 消失 。 

作为 通过 发 现 而 关联 的 一 个 例子 ， 考 虑 一 个 偶然 或 第 一 次 去 主人 家 或 宾馆 的 客人 ， 他 需要 从 笔记 
本 电脑 上 打印 一 份 文档 。 用 户 当 然 不 能 认为 在 他 的 笔记 本 电脑 上 配置 了 当地 某 打 印 机 的 名 字 ， 或 者 能 
猜测 出 它们 的 名 字 (例如 ，\\myrtle\titus 和 \\lionel\frederick) 。 与 强制 用 户 在 访问 时 配置 他 们 的 机 器 相 
比 ， 更 好 的 方法 是 让 笔记 本 电脑 使 用 发 现 服务 的 查询 调用 来 查找 满足 用 户 需要 的 可 用 的 网 络 打印 机 集 
合 。 可 以 通过 与 用 户 的 交互 或 者 参考 用 户 的 偏好 记录 来 选择 某 个 打印 机 。 

打印 服务 所 要 求 的 属性 可 能 有 说 明 它 是 “激光 ”还 是 “ 暑 墨 "， 它 是 否 提供 彩色 打印 ， 以 及 它 相 
对 于 用 户 的 物理 位 置 〈 例 如 ， 房 间 号 ) 。 

相应 地 ， 服 务 通 过 register 调用 将 它 的 地 址 和 属性 提供 给 发 现 服务 。 例 如 ， 打 印 机 〈 或 管理 它 的 服 
务 ) 可 按 如 下 方式 向 发 现 服务 注册 它 的 地 址 和 属性 ; 


serviceAddress=http://www.hotelDuLac.com/services/printer57; resource- 
Class=printer, type=laser, colour=yes, resolution=600dpi, location=room101 


在 运行 时 ， 在 无 手动 配置 情况 下 ， 自 举 访问 本 地 目录 服务 的 一 般 方法 就 是 使 用 局 域 子 网 的 可 达 范 
围 。 具 体 地 说 ， 在 局 域 子 网 内 向 一 个 众所周知 的 人 P 组 播 地 址 组 播 ( 或 广播 ) 查询 。 所 有 需要 访问 发 现 
服务 的 设备 事先 知道 这 个 众所周知 的 IP 组 播 地 址 。 只 基于 网 络 可 达 范 围 的 发 现 服务 有 时 被 明确 地 称 为 
网 络 发 现 服务 (network discovery service)。 

注意 ， 有 些 网 络 (例如 蓝牙 ) 使 用 跳 频 ， 所 以 不 能 在 物理 层 同时 与 所 有 相 邻 设备 通信 。 蓝牙 使 用 
“众所周知 地 址 ”的 等 价 方法 ， 即 一 个 众所周知 的 跳 频 次 序 来 实现 发 现 。 可 发 现 设备 频率 周期 比试 图 
发 现 它们 的 设备 慢 ， 这 样 发 送 者 〈 发 现 者 ) 和 接收 者 最 后 可 以 在 频率 上 重生 并 建立 通信 。 

实现 发 现 服务 时 有 几 种 设计 选择 ， 不 同 的 设计 对 实现 会 有 很 大 的 影响 。 

第 一 个 选择 是 发 现 服务 应 该 由 目录 服务 器 (directory server) 实现 ， 还 是 不 需要 服务 器 。 目 录 服 务 
器 保存 注册 过 的 服务 的 描述 ， 并 对 客户 发 出 的 服务 查询 做 出 响应 。 任 何 想 使 用 本 地 目录 服务 器 的 组 件 
(服务 器 或 客户 ) 发 出 一 个 组 播 请 求 来 定位 它 ， 目 录 服 务 器 以 它 的 单 播 地 址 作为 响应 。 之 后 ， 组 件 与 
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目录 服务 器 进行 点 对 点 通信 ， 避 免 了 采用 组 播 通信 会 对 无 关 设备 进行 干扰 。 这 种 方法 在 提供 了 基础 设 
施 的 智能 空间 中 运作 良好 。 目 录 服 务 经常 运 行 于 一 个 有 稳定 电源 的 机 器 。 但 是 ， 在 低 标 准 会 议 室 这 样 
的 简单 智能 空间 中 ， 没 有 用 于 目录 服务 器 的 设施 。 原 则 上 ， 可 以 从 现场 的 设备 中 选择 一 台 服 务 器 (S 
见 15. 3 节 ) ,但 是 这 样 的 服务 器 可 能 自发 地 消失 。 这 可 能 导致 发 现 服 务 的 客户 端的 实现 的 复杂 性 ， 因 
为 客户 不 得 不 去 适应 一 个 变化 的 注册 服务 器 。 此 外 ， 在 高 易 变 系统 中 重新 选举 带 来 的 开销 可 能 很 大 。 

另 一 种 方法 是 无 目录 服务 器 的 发 现 (serverless discovery) ， 其 中 参与 的 设备 通过 协作 实现 一 个 分 布 
式 发 现 服务 ， 以 此 代替 目录 服务 器 。 至 于 分 布 式 目录 ， 有 两 种 主要 的 实现 方法 。 在 推 (push) 模型 中 ， 
服务 定期 组 播 (“ 广 告 ") 它们 的 描述 。 客 户 监听 这 些 组 播 并 对 它们 发 起 查询 ， 并 可 能 缓存 描述 以 备 以 
后 使 用 。 在 拉 〈pull) 模型 下 ， 客 户 组 播 他 们 的 查询 。 提 供 服务 的 设备 比较 它们 的 描述 和 这 些 查询 是 
否 匹 配 ， 只 响应 那些 匹配 的 描述 。 如 果 没 有 响应 ， 客 户 间 隔 一 段 时 间 后 重复 它们 的 查询 。 

推 和 拉 两 种 模型 都 涉及 带宽 和 能 量 的 使 用 。 每 次 设备 发 出 一 个 组 播 消息 ， 都 令 消 耗 带宽 并 且 所 有 
的 监听 设备 都 要 消耗 能 量 来 接收 消息 。 在 纯 推 模型 下 ， 设 备 需 要 定期 广告 它们 的 服务 ， 以 便 客户 能 发 
现 它们 。 但 是 如 果 没 有 客户 需要 服务 ， 就 会 对 带宽 和 能 量 造成 浪费 。 而 且 客 户 等 待 服务 的 时 间 要 与 消 
耗 的 带宽 和 能 量 相 权衡 ， 而 带宽 和 能 量 消耗 随 广告 的 频率 的 增加 而 增加 。 

在 纯 拉 模 型 下 ， 可 用 的 服务 一 出 现 ， 客 户 就 能 够 发 现 它 。 在 给 定 的 间隔 内 若 没有 发 现 需求 就 不 会 
有 组 播 浪费 。 客 户 可 能 收 到 多 个 响应 ， 但 只 要 一 个 响应 就 够 了 。 在 默认 情况 下 ， 对 频繁 需要 的 服务 ， 
无 法 利用 包含 相同 查询 的 请 求 来 提高 效率 。 

可 以 设计 混合 协议 来 解决 上 面 的 缺陷 ， 习 题 19. 2 将 涉及 这 个 问题 。 

一 个 服务 在 它 消失 之 前 会 调用 注销 (deregister) 函数 (参见 图 19-3) ， 但 同样 地 它 也 可 能 自发 地 消失 。 
根据 目录 实现 的 体系 结构 ， 服 务 易 变性 有 多 种 处 理 方法 。 注 册 的 服务 消失 后 ， 目 录 服 务 器 需要 尽快 知道 这 个 
情况 ， 这 样 它 才 不 会 错误 地 发 出 它 的 描述 。 通 常 使 用 一 个 称 为 租 期 (lease) 的 通用 机 制 实现 这 一 目标 。 租 
期 是 指 服务 器 给 客户 临时 分 配 一 些 资源 ， 在 租 期 过 期 之 前 ， 客 户 要 进一步 发 送 请 求 加 以 续 租 。 如 果 客 户 续 租 
失败 《例如 ， 使 用 图 19-3 的 refresh 调用 ) ， 服 务 器 就 会 收回 〈 并 且 可 能 重新 分 配 ) 资源 。 我 们 在 5.4.3 节 作 
为 讨论 Jini 的 一 部 分 介绍 了 租 期 ， 而 且 DHCP 服务 器 在 分 配 IP 地 址 时 也 使 用 了 租 期 。 只 有 当 服 务 定期 与 目 
录 服 务 器 通信 并 更 新 该 服务 项 的 租 期 时 ， 目 录 服 务 器 才 会 保存 服务 的 注册 。 在 这 里 ， 我 们 看 到 一 个 类 似 在 及 
时 性 与 带宽 和 能 量 消耗 之 间 进 行 权 衡 的 方法 一 一 租 期 越 短 ， 服 务 消失 的 通知 就 发 得 越 快 ， 但 是 需要 的 网 络 
和 能 量 资源 越 多 。 在 无 服务 器 体系 结构 中 ， 不 需要 采取 任何 步骤 (除了 清除 缓存 服务 的 设备 中 的 陈旧 项 信 
息 ) ， 因 为 已 经 消失 的 服务 不 再 广告 自己 ， 并 且 使 用 基于 拉 协 议 的 客户 只 能 发 现 当前 的 服务 。 

Jini Jini [Waldo 1999; Amold et al. 1999] 是 一 个 设计 用 于 移动 和 无 处 不 在 系统 的 系统 。 它 完全 
基于 Java 一 一 它 假定 在 所 有 的 计算 机 中 都 运行 Java 虚拟 机 ， 这 样 ， 机 器 之 间 通 过 RMI 或 事件 ( 见 第 5 
章 和 第 6 章 ) 进行 通信 并 且 能 在 必要 时 下 载 代 码 。 接 下 来 我 们 描述 Jini 的 发 现 系统 。 

Jini 系统 中 与 发 现 相关 的 组 件 是 查找 服务 、Jini 服务 和 Jini 客户 (参见 图 19-4) 。 查 找 服 务实 现 了 
我 们 所 说 的 发 现 服务 ， 尽 管 Jini 只 为 发 现 “查找 服 务 ”本 身 使 用 术语 “发 现 " 。 查 找 服务 允许 Jini 服务 
注册 它们 所 提供 的 服务 ， 并 允许 Jini 客户 请 求 与 它们 需求 相 匹配 的 服务 。 一 个 Jini 服务 〈 例 如 打印 服 
务 ) 可 以 在 一 个 或 多 个 查找 服务 上 注册 。Jini 服务 所 提供 的 同时 也 是 查找 服务 所 存储 的 是 提供 该 服务 
的 对 象 以 及 该 服务 的 属性 。Jini 客户 为 了 查找 符合 它们 需求 的 Jini 服务 ， 首 先 查询 查找 服务 ; 如 果 找 到 
匹配 的 服务 ， 就 从 查找 服务 上 下 载 提供 访问 该 服务 的 一 个 对 象 。 给 客户 请 求 提供 的 服务 可 以 基于 属性 
或 者 Java 类 型 ， 例 如 允许 客户 请 求 一 人 台 具 有 相应 Java 接口 的 彩色 打印 机 。 

当 Jini 客户 或 服务 启动 时 ， 它 发 送 一 个 请 求 给 一 个 众所周知 的 IP 组 播 地 址 。 接 收 到 该 消息 ， 并 可 
以 响应 它 的 查找 服务 都 返回 自己 的 地 址 ， 使 得 请 求 者 执行 一 个 远程 调用 来 查找 或 注册 一 个 服务 (在 Jini 
中 注册 称 为 加 入 ) 。 查 找 服 务 也 通过 发 送 数据 报到 同一 组 播 地 址 宣布 它们 自身 的 存在 ，Jini 客户 和 服务 
可 以 监听 组 播 地 址 以 便 它们 发 现 新 的 查找 服务 。 

发 自 一 个 给 定 的 Jini 客户 或 服务 的 组 播 通信 可 能 到 达 多 个 查找 服务 的 实例 。 每 个 这 样 的 服务 实例 
配置 了 一 个 或 多 个 组 名 字 ， 例 如 “管理 ”、“ 财 政 ” 和 “销售 ” ， 这 些 将 作为 划分 边界 的 标签 。 图 19-4 
展示 了 一 个 Jini 客户 发 现 和 使 用 打印 机 服务 的 例子 。 客 户 需要 一 个 “财政 ”组 中 的 查找 服务 ， 所 以 它 
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组 播 一 条 带 有 该 组 名 字 的 请 求 〈 图 中 的 请 求 1) 。 只 有 一 个 绑 定 到 “财政 ”组 的 查找 服务 〈 该 服务 也 
绑 定 到 “管理 ”组 ) ， 该 服务 做 出 响应 〈2) 。 查 找 服 务 的 响应 包括 它 的 地 址 ， 然 后 客户 通过 RMI 直接 
与 它 通 信 来 定位 所 有 类 型 为 “打印 ”的 服务 (3) 。 只 有 一 个 打印 服务 注册 到 “财政 ”组 的 查找 服务 
上 ， 因 此 返回 一 个 用 于 访问 该 服务 的 对 象 。 接 着 ， 客 户 利用 返回 的 对 象 直接 使 用 该 打印 服务 (4)。 
图 19-4 显 示 了 另 一 个 位 于 “管理 ”组 的 打印 服务 ， 还 有 一 个 不 绑 定 到 任何 组 的 公司 信息 服务 〈 并 且 它 
可 能 注册 到 所 有 的 查找 服务 中 ) 。 


管理 
打印 
客户 & 1. 有 属于 “财政 "组 服务 
的 查找 服务 吗 ? 


Ys 


2. 我 在 这 儿 ……. 









公司 信息 
服务 


财政 


图 19-4 Jini 中 的 服务 发 现 


关于 网 络 发 现 服务 的 讨论 刚刚 描述 过 的 基于 网 络 可 达 区 域 的 发 现 服 务 (网 络 发 现 服务 ) 采取 了 
一 些 措 施 来 解决 关联 问题 。 存 在 有 效 的 目录 实现 ， 包 括 那 些 不 依赖 于 基础 设施 的 实现 。 在 很 多 情况 下 ， 
就 计算 和 网 络 代价 而 言 ， 通 过 子 网 可 到 达 的 客户 和 服务 的 数目 是 可 管理 的 ， 所 以 规模 通常 不 是 问题 。 
我 们 已 经 描述 了 用 于 处 理 系统 易 变 性 的 措施 。 

然而 ， 从 边界 原理 的 角度 来 看 ， 网 络 发 现 服务 引发 了 两 个 困难 : 子 网 的 使 用 和 服务 描述 方式 的 不 
完备 。 

子 网 近似 于 一 个 智能 空间 。 第 一 ， 网 络 服务 可 能 错误 地 包括 并 不 属于 智能 空间 的 服务 。 例 如 考虑 
一 个 宾馆 房间 。 基 于 无 线 射 频 (RF) 信号 (例如 802. 11 REF) 的 传送 通常 会 穿 透 墙壁 到 达 另 一 个 
客房 。 效 仿 lini 例子 ， 将 服务 在 逻辑 上 按 组 划分 一 一 每 个 宾馆 房间 为 一 组 。 但 是 它 回避 了 用 户 房间 号 
如 何 成 为 发 现 服务 的 一 个 参数 的 问题 。 第 二 ， 网 络 发 现 可 能 错误 地 忽视 了 “在 ”智能 空间 中 可 以 被 发 
现 的 但 超出 子 网 的 服务 。Cooltown 实例 研究 〈 见 19.7.1 节 ) 说 明了 非 电子 实体 〈 例 如 智能 空间 中 要 打 
印 的 文档 ) 是 如 何 与 智能 空间 外 的 服务 关联 的 。 

此 外 ， 网 络 发 现 服务 不 总 是 能 产生 合适 的 关联 ， 因 为 用 于 描述 服务 的 语言 可 能 在 下 面 两 个 方面 是 
不 够 的 。 第 一 ， 发 现 可 能 是 脆弱 的 : 不 同 组 织 使 用 的 服务 描述 词汇 的 微小 变化 都 可 能 导致 发 现 失败 。 
例如 ， 宾 馆 房间 有 个 名 为 “Print” 的 服务 ， 然 而 房客 的 笔记 本 电脑 搜索 的 是 名 为 “Printing” 的 服务 。 
人 类 语言 在 词汇 上 的 各 种 变化 更 容易 加 剧 这 个 问题 。 第 二 ， 可 能 会 错失 访问 服务 的 机 会 。 例 如 ， 在 宾 
馆 房间 的 墙壁 上 有 个 “数码 相框 ”， 它 会 以 JPEG 格式 显示 假日 快照 。 房 客 的 相机 有 无 线 连接 ， 并 且 生 
成 该 格式 的 图 像 ， 但 是 它 没有 该 服务 的 描述 一 一 它 没有 随 着 最 近 的 发 展 而 进行 更 新 。 因 此 这 个 相机 不 
能 利用 该 服务 。 


19.2.2 ”物理 关联 


网 络 发 现 系统 的 缺陷 在 一 定 程度 上 可 使 用 物理 方法 解决 ， 尽 管 解决 方案 经 常 在 要 很 大 程度 上 需要 
人 为 的 参与 。 下 列 技术 已 经 被 开发 : 

采用 人 工 输 入 界定 发 现 的 范围 人 向 设备 提供 输入 ， 以 便 设置 发 现 范围 。 该 技术 的 一 个 简单 例子 
是 输入 或 选择 智能 空间 的 标识 符 ， 例 如 在 宾馆 客人 例子 中 的 房客 的 房间 号 。 之 后 ， 设 备 可 以 将 标识 符 
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作为 一 个 额外 服务 “组 ”属性 〈 就 像 在 Jini 中 那样 ) 。 

采用 传 感 技 术 和 物理 受 限 通道 界定 发 现 的 范围 ”一 个 可 能 减少 用 户 劳 力 的 方法 是 在 他 们 的 设备 上 
使 用 传感器 。 例 如 ， 智 能 空间 可 能 有 一 个 标识 符 ， 在 文档 和 空间 表面 一 一 例如 ， 显 示 在 旅客 房间 的 电 
视屏 幕 上 一 一 用 基于 标识 符 进行 编码 的 符号 〈 称 为 图 像 文 字 ) 表示 。 房 客 使 用 他 们 的 拍照 手机 或 其 他 
图 像 设 备 来 解码 这 种 符号 ， 接 着 设备 以 我 们 描述 的 用 户 直接 输入 一 样 的 方式 使 用 该 结果 标识 符 。 为 了 
使 用 具有 卫星 导航 信号 的 智能 空间 ， 另 一 种 可 能 的 方法 是 使 用 传感器 来 得 到 智能 空间 的 纬度 和 经 度 坐 
标 位 置 ， 并 且 把 那些 坐标 发 送 给 一 个 众所周知 广 域 服务 ， 该 服务 返回 本 地 发 现 服务 的 地 址 。 然 而 ， 在 
卫星 导航 不 精确 的 情况 下 ， 如 果 旁 边 有 其 他 的 智能 空间 ， 该 方法 对 智能 空间 的 识别 就 可 能 不 准确 了 。 

另 一 种 避免 人 工 输入 的 技术 是 使 用 物理 受 限 通道 (physically constrained channel) (参见 19.5.2 
节 ) 一 一 它 是 一 种 通信 通道 ， 可 以 近似 地 认为 它 只 作用 于 智能 空间 所 在 的 物理 范围 内 。 例 如 ， 在 客房 
内 ， 电 视 可 能 正在 轻声 播放 背景 音乐 ， 房 间 标识 符 的 数字 编码 被 要 加 为 音乐 信号 的 一 个 听 不 见 的 微 扰 
[ Madhavapeddy et al. 2003]; 房间 内 也 可 能 有 一 个 红外 线 发 射 器 (一 个 信 标 ) 用 来 传送 标识 符 [ Kind- 
berg et al. 2002a ] 。 这 两 种 通道 遇 到 房间 边界 的 材料 时 会 极 大 地 衰减 〈 假 设 门 和 窗 是 关闭 的 )。 

直接 关联 最 后 我 们 在 这 里 考虑 的 技术 是 让 人 使 用 物理 机 制 直接 关联 两 个 设备 ， 而 不 使 用 发 现 服 
务 。 通 常 ， 这 种 情况 下 的 设备 只 提供 一 个 或 少量 的 可 由 人 选择 的 服务 。 在 下 面 提 到 的 每 种 技术 中 ， 用 
户 都 能 够 使 用 他 们 携带 的 设备 获得 “目标 ”设备 的 网 络 地 址 (例如 蓝牙 或 二 地 址 )。 

地 址 感知 : 使 用 一 种 设备 能 直接 感知 目标 设备 的 网 络 地 址 。 这 可 能 包括 : 读 取 设 备 上 的 条 形 码 ， 
形成 网 络 地 址 编码 ;或 者 将 一 个 设备 靠近 另 一 个 设备 ， 并 使 用 短程 无 线 通道 读 取 它 的 地 址 。 这 种 短程 
无 线 通道 的 例子 有 近 趾 离 通信 和 短程 的 红外 线 传输 ， 其 中 的 近 距 离 通信 [ www. nfc-forum. org] 是 一 种 
双向 无 线 电 通信 标准 (拥有 多 个 可 选 的 较 短 的 作用 范围 ,但 是 通常 只 能 在 3 厘米 之 内 变化 ) 和 远程 红 
外 线 传 输 。 

物理 触发 器 : 使 用 一 个 物理 触发 器 让 目标 设备 发 送 它 的 地 址 。 例 如 ， 将 一 种 数字 调制 的 激光 束 
( 另 一 种 物理 受 限 通道 ) 照射 到 目标 设备 上 [Patel and Abowd 2003 ] ， 就 能 将 它 的 地 址 传送 给 目标 设 
备 ， 目 标 设备 用 它 的 地 址 加 以 响应 。 

时 间或 物理 相关 性 : 可 以 使 用 时 间 上 或 物理 上 相关 的 触发 器 来 关联 设备 。 用 于 家 庭 环境 内 无 线 联 
网 的 SWAP-CA 规范 [SWAP-CA 2002] 引入 了 一 个 协议 ， 它 有 时 也 被 称 为 两 按钮 协议 ， 让 人 将 两 个 无 
线 设 备 关 联 起 来 。 每 个 设备 监听 一 个 众所周知 的 组 播 地 址 。 用 户 几 乎 同时 按 下 各 自 设备 上 的 按钮 ， 同 
时 设备 向 组 播 地 址 发 送 它们 的 网 络 地 址 。 由 于 不 可 能 在 同一 子 网 、 同 一 时 刻 进行 该 协议 的 下 一 轮 ， 因 
此 设备 与 在 按钮 按 下 这 一 小 段 时 间 间 隔 内 到 达 的 任何 地 址 进行 关联 。 有 一 个 有 意思 但 不 太 实际 的 两 按 
钮 协议 的 实现 [Holmquist et al. 2001] ， 用 户 一 只 手 握 着 两 个 设备 并 同时 摇动 它们 。 每 个 设备 有 一 个 加 
速 计 以 感知 它 的 运动 状态 。 设 备 记录 摇动 模式 ， 从 中 计算 出 一 个 标识 符 ， 并 且 将 标识 符 连 同 它 的 单 播 
地 址 组 播 到 一 个 众所周知 组 播 地 址 。 只 有 精确 体验 该 加 速 模式 的 两 个 设备 〈 并 在 直接 通信 范围 内 ) 才 
会 识别 出 彼此 的 标识 符 并 由 此 知道 双方 的 地 址 。 


19.2.3 ”小 结 和 前 景 


本 节 描 述 了 易 变 系统 组 件 的 关联 问题 ， 并 提出 从 网 络 发 现 到 人 工 监控 技术 等 方法 来 试图 解决 该 问 
题 。 移 动 和 无 处 不 在 系统 引发 了 特有 的 难题 ， 因 为 它们 是 与 我 们 日 常 的、 凌乱 的 物理 世界 空间 集成 的 
(例如 住宅 房间 和 办 公 室 ) ， 这 使 得 研究 解决 方案 很 困难 。 人 们 在 考虑 一 个 特定 智能 空间 内 部 有 什么 和 
外 部 有 什么 时 容易 在 头脑 中 有 很 多 的 地 域 和 管理 方面 的 考虑 。 边 界 原理 说 的 是 解决 关联 问题 的 方法 需 
要 在 某 种 用 户 可 以 接受 的 程度 上 匹配 底层 的 物理 空间 。 我 们 看 到 ， 由 于 网 络 发 现 系统 的 缺陷 ， 通常 需 
要 一 定 程 度 上 的 人 工 监管 。Cooltown 实例 研究 〈 参 见 19.7 节 ) 描述 了 一 种 有 人 参与 的 模型 。 

在 关联 问题 的 解决 方案 中 ， 由 于 整个 世界 通常 被 分 成 可 管理 大 小 的 智能 空间 ， 因 此 我 们 很 大 程度 
上 忽略 了 规模 因素 。 但 是 ， 有 一 些 针 对 发 现 服务 的 研究 一 一 毕竟 ， 有 些 应 用 可 能 将 整个 地 球 看 做 一 个 
智能 空间 。 例 如 INS/Twine [ Balazinska et al，2002] ， 它 将 目录 数据 划分 到 一 系列 对 等 服务 器 上 。 
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19.3 互 操作 


我 们 已 经 描述 了 易 变 系统 的 两 个 或 多 个 组 件 关联 的 方式 ， 现在 转向 它们 如 何 互 操作 的 问题 。 组 件 
基于 它们 中 的 一 个 或 两 个 拥有 的 某 些 属性 或 数据 进行 关联 。 这 和 留 下 了 下 面 这 些 的 问题 : 它们 使 用 什么 
协议 进行 通信 ? 在 较 高 层次 上 ， 什 么 样 的 编程 模型 最 适合 它们 之 间 的 交互 ?本 节 将 解决 上 述 问题 。 

第 4、5 和 6 章 描 述 了 用 于 互 操作 的 模型 ， 包 括 各 种 形式 的 进程 间 通 信 、 方 法 调用 和 过 程 调 用 。 其 
中 一 些 模型 包含 的 隐 含 假设 是 互 宫 作 组 件 被 设计 为 在 一 个 特定 系统 或 应 用 中 共同 工作 ， 还 有 互 操作 组 
件 集 合 的 改变 要 人 么 是 一 个 长 期 配置 问题 ， 要 人 么 是 一 个 偶尔 被 处 理 的 运行 时 错误 条 件 。 但 是 那些 假设 在 
移动 和 无 处 不 在 系统 中 是 不 成 立 的 。 幸 运 的 是 ， 正 如 本 节 我 们 阐述 的 ,第 4、5 和 6 章 中 介绍 的 互 操作 
的 某 些 方法 〈 除 一 些 新 方法 外 ) 非常 适合 这 些 易 变 系统 。 

理想 情况 下 ， 移 动 系统 或 无 处 不 在 系统 中 的 组 件 可 以 与 变化 的 服务 类 型 关联 ， 而 不 只 是 与 相同 类 
再 服务 的 不 同 的 实例 集合 关联 。 也 就 是 说 ， 最 好 能 避免 前 一 节 描 述 的 “失去 机 会 ”问题 。 前 面 的 例子 
中 ,数码 相机 不 能 将 它 的 图 像 发 送 到 一 个 数字 相框 ， 因 为 它 不 能 与 相框 的 图 像 使 用 服务 互 操 作 。 

从 另 一 个 角度 看 ， 无 处 不 在 计算 和 移动 计算 的 一 个 目标 是 组 件 应 该 有 机 会 与 功能 兼容 的 组 件 互 操 
作 ， 即 使 后 者 处 于 一 个 不 同 于 最 初 开发 它 的 智能 空间 中 。 这 需要 软件 开发 者 之 间 具 有 全 局 协定 。 给 定 
达成 协定 所 需 的 努力 ， 最 好 能 将 需要 达成 一 致 的 内 容 减 到 最 少 。 

易 变 互 操作 的 最 主要 的 困难 是 软件 接口 的 不 兼容 。 例 如 ， 如 果 数 码 相 机 希望 调用 操作 pushImage， 
但 是 在 数字 相框 接口 中 没有 这 样 的 操作 ， 那 么 它们 就 不 能 互 操作 一 一 至 少 ， 不 能 直接 互 操作 。 

该 问题 有 两 种 主要 的 解决 方法 。 第 一 种 方法 是 允许 接口 异 构 ， 但 是 要 适应 彼此 的 接口 。 例 如 ， 如 
果 数 字 相框 的 sendImage 操作 与 pushImage 操作 有 相同 的 参数 和 语义 ， 那 么 就 能 构造 一 个 组 件 作为 数字 
相框 的 代理 ， 将 相机 的 pushfpmage 调用 转换 成 相框 的 sendImage 调用 。 

然而 ， 这 种 方法 很 难 实现 。 通 常 ， 操 作 的 语义 以 及 语法 可 能 变化 ， 并 且 解 决 语义 不 兼容 性 一 般 是 
很 困难 的 并 且 容 易 造 成 错误 。 然 后 ， 该 问题 的 规模 是 : RAN 个 接口 ， 则 潜在 的 要 编写 的 适配器 要 
AN 个 ,并 且 随 时 间 的 增长 可 能 需要 创建 更 多 的 接口 。 此 外 ,在 易 变 系统 中 组 件 重 新 关联 时 ， 存 在 它 
们 如 何 获得 合适 的 接口 适配器 的 问题 。 组 件 〈 或 拥有 它们 的 设备 ) 不 能 预 装载 所 有 可 能 的 VY 个 适 配 
器 ， 所 以 要 在 运行 时 确定 并 装载 正确 的 适配器 。 尽 管 有 上 述 困难 ， 但 仍然 有 关于 如 何在 实际 中 解决 接 
口 适 配 问 题 的 研究 。 参 见 Ponnekanti 和 Fox [2004], 

另 一 种 关于 互 操作 的 方法 是 限制 接口 ， 使 其 在 语法 上 尽 可 能 像 一 种 组 件 类 型 一 样 一 致 。 这 听 起 来 
可 能 不 现实 ， 但 实际 上 它 已 经 广泛 、 成 功 地 应 用 了 几 十 年 了 。 最 简单 的 例子 是 UNIX 中 的 管道 。 管 道 
只 有 两 个 操作 ; read 和 write， 用 于 管道 两 端 组 件 (进程 ) 间 的 数据 传送 。 多 年 来 ，UNIX 程序 员 创建 
了 许多 程序 能 从 管道 中 读数 据 / 或 向 管道 中 写 数据 。 因 为 这 些 程 序 使 用 标准 接口 和 通用 的 文本 处 理 功 
能 ， 所 以 其 中 任何 一 个 程序 的 输出 都 能 作为 另 一 个 程序 的 输入 。 用 户 和 程序 员 发 现 了 许多 有 用 的 方法 
用 于 把 多 个 程序 组 合 在 一 起 (那些 独立 开发 的 、 不 涉及 其 他 程序 的 特定 功能 的 程序 ) 。 

一 个 已 经 比较 成 功 的 、 通 过 一 个 固定 接口 达到 高 度 互 操作 的 例子 是 Web。HTTP 规约 ( 见 5.2 节 ) 
定义 的 方法 集合 规模 很 小 并 且 很 固定 。 通 常 ，Web 客户 只 使 用 GET 和 POST 操作 访问 Web 服务 器 。 使 
用 固定 接口 的 好 处 是 能 通过 一 个 相对 稳定 的 软件 (通常 是 浏览 器 ) 与 服务 集合 互 操 作 。 服 务 之 间 所 不 
同 的 是 交换 的 内 容 的 类 型 和 数值 ， 以 及 服务 器 的 处 理 语义 。 但 是 每 个 交互 依然 是 一 个 CET 或 POST 
操作 。 


19.3.1 易 变 系统 的 面向 数据 编程 

我 们 称 使 用 一 个 不 变 的 服务 接口 (如 UNIX 管道 和 Web) 的 系统 为 面向 数据 (或 面向 内 容 ) WA 
统 。 选 择 这 个 术语 是 为 了 与 面向 对 象 区 别 开 来 。 面 向 数据 系统 中 的 组 件 可 以 由 知道 固定 接口 的 其 他 组 
件 调用 。 另 一 方面 ， 对 象 或 过 程 的 集合 可 能 有 一 个 变化 多 样 的 接口 集合 ， 并 且 只 能 由 那些 知道 它 的 特 
定 接口 的 组 件 调用 。 分 发 和 利用 一 个 不 确定 的 特殊 接口 定义 比 发 布 和 使 用 一 个 接口 规约 〈 如 HTTP 规 
约 ) 更 困难 。 这 就 解释 了 为 什么 我 们 熟知 的 、 广 泛 使 用 的 异 构 分 布 式 系统 是 Web， 而 不 是 类 似 的 范围 
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有 限 的 对 象 集合 ， 例 如 CORBA 对 象 集合 。 

然而 ， 我 们 要 在 面向 数据 系统 的 灵活 性 与 健壮 性 之 间 做 出 权衡 。 两 个 组 件 的 互 操作 不 总 是 有 意义 
的 ， 并 且 很 难 用 程序 核查 兼容 性 。 在 面向 对 象 或 面向 过 程 系统 中 ， 程 序 至 少 能 够 核查 其 特有 的 接口 签 
名 是 否 匹 配 。 但 是 面向 数据 组 件 只 能 通过 验证 发 送 给 它 的 数据 类 型 来 强制 兼容 性 。 这 种 验证 要 么 通过 
作为 元 数据 提供 的 (例如 ，Web 内 容 的 MIME 类 型 ) 标准 数据 类 型 描述 符 来 完成 ,要么 通过 检查 传递 
给 它 的 数据 值 ( 例 如 ，JPEG 类 型 的 数据 有 一 个 可 识别 的 信息 头 ) 来 完成 。 

我 们 现在 分 析 几 种 编程 模型 ， 由 于 它们 具有 面向 数据 互 操作 特性 ， 所 以 适用 于 易 变 系统 。 首 先 介 
绍 用 于 间接 关联 组 件 间 互 操作 的 两 种 模型 ， 事件 系统 和 元 组 空间 。 之 后 我 们 将 描述 用 于 直接 关联 的 设 
备 间 互 操作 的 两 种 设计 : JetSend 和 Speakeasy。 

事件 系统 ”我 们 在 6. 3 节 中 介绍 了 事件 系统 [Bates et al. 1996] 。 事 件 系 统 提供 事件 服务 的 实例 。 
每 个 系统 提供 一 个 固定 的 、 通 用 的 接口 ， 名 为 发 布 者 〈publisher) 的 组 件 通过 该 接口 发 布 称 为 事件 的 
结构 化 数据 ， 同 时 ， 称 为 订阅 者 (subscriber) 的 组 件 接收 事件 。 每 个 事件 服务 与 某 个 物理 的 或 逻辑 的 
事件 传递 范围 相关 联 。 订 阅 者 只 接收 (“处 理 ”) 这 样 的 事件 : 1) 在 同一 个 事件 服务 中 发 布 的 ; 2) 与 
它们 已 注册 的 感 兴趣 事件 的 规约 相 匹配 的 。 

对 于 声明 和 处 理 组 件 在 易 变 系统 中 或 在 易 变 系统 间 移 动 时 所 经 历 的 变化 而 言 ， 事 件 是 一 个 很 自然 
的 编程 范 型 。 事 件 可 以 被 构造 以 说 明 诸如 设备 位 置 改 变 之 类 的 事情 的 新 状态 。 最 近 一 个 在 无 处 不 在 计 
算 中 使 用 事件 的 系统 是 one. world [Grimm 2004 ] ， 其 实事 件 很 早 以 前 就 用 于 无 处 不 在 系统 了 。 在 活动 
徽章 系统 [Harter and Hopper 1994] 中 ， 应 用 可 以 订阅 用 户 移动 时 发 生 的 位 置 改变 事件 。 关 于 位 置 事 
件 还 提出 了 检测 同时 或 相 邻 发 生 的 事件 模式 〈 也 称 为 复合 事件 ) 的 问题 。 例 如 ， 考 虑 检测 两 个 用 户 位 
于 相同 位 置 的 问题 ， 所 知 的 仅 是 单个 用 户 何 时 进入 或 离开 一 个 特定 位 置 。 位 置 系统 并 不 亲自 检测 这 些 
事件 : 当 复 合 事件 〈 例 如 位 于 相同 位 置 ) 发 生 时 ， 有 必要 用 原子 事件 〈 例 如 “到 达 〈 用 户 ， 位置 ， 时 
间 )” 和 “离开 〈 有 用户， 位置， 时 间 )”) 来 制定 规则 。 

尽管 已 给 定 事 件 的 发 布 、 订 阅 和 处 理 接口 (事件 系统 之 间 的 变化 相对 很 小 ) ,但 是 发 布 者 和 订阅 
者 只 有 在 对 使 用 的 事件 服务 〈 可 能 有 许多 实例 ) 和 事件 的 类 型 、 属 性 (它们 的 语法 和 语义 ) 达成 一 至 
时 ， 才 能 正确 地 进行 互 操作 。 因 此 ， 事 件 系统 转换 了 而 不 是 解决 了 无 处 不 在 互 操作 问题 。 对 于 给 定 的 
组 件 ， 要 在 种 类 繁多 的 智能 空间 中 实现 互 操 作 ， 需 要 将 事件 类 迎 标 准 化 ， 并 且 理 想 中 的 事件 应 该 用 一 
种 独立 于 编程 语言 的 标记 语言 (例如 XML 或 JSON) 描述 。 

另 一 方面 ， 事件 产生 者 和 消费 者 不 需要 识别 彼此 。 这 在 易 变 系统 中 是 一 个 优势 ， 在 该 系统 中 跟踪 
其 他 组 件 的 位 置 是 很 困难 的 。 两 个 组 件 通 过 发 布 和 订阅 匹配 的 事件 ， 以 及 通过 对 事件 传递 范围 达成 一 
致 来 进行 通信 一 一 换 句 话说， 它们 间接 关联 。 

在 移动 和 无 处 不 在 系统 中 ， 事 件 传 递 范围 本 身 就 是 一 个 有 趣 的 话题 。 随 着 服务 发 现 的 应 用 ， 出 现 
了 事件 服务 的 范围 如 何 与 智能 空间 的 物理 范围 联系 的 问题 。 该 问题 是 习题 19.7 的 主题 。 

元 组 空间 “同事 件 系统 类 似 ， 元 组 空间 也 是 一 个 成 熟 的 编程 范 型 ， 而 且 它 在 易 变 系统 中 已 得 到 应 
用 。 元 组 空间 范 型 在 6. 5. 2 节 是 作为 间接 通信 范 型 引信 的 ， 它 支持 在 一 个 元 组 空间 中 称 为 元 组 的 结构 
化 数据 的 增加 和 检索 。 元 组 空间 系统 允许 交换 应 用 特定 的 元 组 ， 元 组 关联 和 互 操作 的 基础 是 组 件 对 元 
组 结构 和 元 组 所 包含 数值 的 约定 。 

作为 元 组 空间 能 支持 无 处 不 在 计算 的 例子 ， 数 码 相机 可 以 发 现 本 地 智能 空间 (如 一 个 宾馆 房间 ) 








的 元 组 空间 ， 并 且 使 用 元 组 ,例如 : 

<'The leaning tower’, 'image/jpeg',<jpeg data>> 

将 它 的 图 像 放 到 元 组 空间 中 。 

相机 软件 的 设计 者 有 一 个 用 于 将 图 像 以 一 定格 式 放置 其 中 的 元 组 空间 的 模型 ， 但 没有 那些 图 像 的 
特殊 处 理 模 型 。 

相应 的 ， 图 像 使 用 设备 〈 比 如 数字 相框 》 可 以 通过 编程 发 现 它 的 本 地 元 组 空间 ， 并 试图 用 如 下 模 
板 格式 从 元 组 中 检索 ， 其 中 “* ”代表 通配符 : 


<* ‘image/jpeg’, *> 
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相机 的 元 组 匹配 了 相框 要 求 的 模板 一 一 相机 有 三 个 域 ， 第 二 个 域 包括 了 所 需 的 MIME 类 型 字符 串 。 
相框 将 检索 到 相机 的 元 组 并 且 能 显示 图 像 和 相关 的 标题 。 另 一 个 例子 是 用 户 可 以 激活 一 个 打印 机 来 打 
印 元 组 空间 的 图 像 。 

有 了 几 种 特别 为 移动 和 无 处 不 在 系统 开发 的 基于 元 组 空间 的 编程 系统 ， 见 下 面 的 讨论 。 

事件 堆 : 尽管 名 为 事件 堆 [Johanson and Fox 2004] ， 但 它 是 为 称 为 iRoom 的 一 类 智能 空间 开发 的 
基于 元 组 的 编程 系统 。iRoom 中 包括 多 个 大 显示 山 和 其 他 基础 设备 。 对 于 每 个 iRoom， 有 一 个 对 应 的 事 
件 堆 ， 在 该 事件 堆 中 ，iRoom 中 的 组 件 〈 包 括 带 人 房间 内 的 移动 设备 上 的 组 件 ) 可 以 发 现 或 配置 使 用 。 
组 件 通 过 事件 堆 交 换 元 组 来 实现 互 操作 ， 并 且 事 件 堆 提供 一 定 程度 的 间接 关联 以 便于 设备 间 的 动态 关 
联 。 例如， 放 在 iRoom 中 的 一 个 远程 控制 设备 可 以 与 不 同 的 显示 器 动态 地 关联 。 例 如 ， 一 段 视 频 可 以 
在 几 个 大 显示 器 中 的 任何 一 个 上 显示 。 当 用 户 按 下 远程 控制 的 “暂停 ”按钮 时 ， 控 制 器 在 事件 堆 中 放 
置 一 个 “暂停 ”元 组 。 显 示 视 频 的 设备 通过 编程 来 查找 并 检索 “暂停 ”元 组 ， 进 而 加 以 响应 。 远 程控 
制 器 还 可 以 以 完全 相同 的 方式 与 一 个 音频 输出 设备 一 起 工作 ， 不 需要 重新 编程 。 

LIME; LIME 系统 (移动 环境 中 的 Linda) [Murphy et al. 2001] 是 作为 移动 系统 的 编程 模型 而 开发 
的 。 在 LIME 中 ， 参 与 的 设备 拥有 元 组 空间 ， 并 且 不 依赖 基础 设施 。 每 个 设备 拥有 它 自 己 的 元 组 空间 。 
当 元 组 空间 所 在 的 设备 相关 联 的 时 候 ，LIME 会 共享 各 自 的 元 组 空间 ， 即 通过 聚合 共享 元 组 空间 形成 了 
元 组 集合 的 并 集 。 例 如 ， 这 可 用 于 服务 发 现 。 请 求 服务 的 组 件 能 够 通过 编程 得 到 描述 它 所 需 服 务实 例 
的 元 组 ; 实现 相应 服务 的 设备 能 够 通过 编程 在 它 的 本 地 元 组 空间 中 放置 一 个 描述 性 元 组 。 当 二 者 连接 
Hf, LIME 将 建立 匹配 ， 并 日 为 潜在 客户 提供 服务 的 详细 资料 。 

虽然 LIME 模型 易于 描述 ,但 是 面 对 任 意 的 连接 和 断 链 来 实现 合适 的 一 致 性 语义 是 很 困难 的 。 
LIME 的 实现 者 做 出 了 有 争议 的 、 不 现实 的 假设 来 简化 他 们 的 设计 ， 包 括 组 播 连通 性 在 元 组 空间 被 聚集 
的 设备 间 保 持 一 致 ;到 聚集 集合 的 连接 和 从 聚集 集合 的 断 开 是 串 行 化 的 、 有 序 的 。 

TOTA: TOTA (Tuples On The Air) 项 目 [Mamei and Zambonelli 2009] 为 元 组 空间 的 标准 实现 提出 
了 一 个 相当 有 趣 的 转变 。 在 这 个 方法 中 ， 将 元 组 插入 网 络 的 方式 如 下 : 把 元 组 放 在 一 个 本 地 的 结 点 ， 
接着 ， 允 许 元 组 以 类 似 闲聊 协议 方式 ， 通 过 网 络 进行 克隆 和 传播 〈 见 18.4.1 节 )。 最 终 的 结果 是 一 个 
TAHR (tuple field) ， 表 示 一 个 给 定 元 组 的 空间 分 发 。 接 着 ， 一 个 进程 按 常 规 的 方法 用 关联 匹配 读 取 
元 组 。 为 了 支持 这 种 风格 的 编程 ， 一 个 元 组 了 被 定义 成 了 = (C，P，M) ， 其 中 ，(C 是 元 组 的 内 容 ，P 
是 该 元 组 的 传播 规则 ，M 是 一 个 维护 规则 ， 定 义 了 元 组 如 何 应 对 来 自 环境 的 事件 或 时 间 的 流逝 。 例 如 ， 
Mamei 和 Zambonelli [2009] 描述 一 个 艺术 博物 馆 应 用 ， 其 中 博物 馆 中 的 不 同房 间 已 经 设置 了 固定 的 无 
线 设 备 ， 游 客 拥有 无 线 功能 的 智能 手机 ， 这 些 一 起 形成 了 一 个 自 组 织 网 络 。 游 客 对 某 个 艺术 品 感 兴趣 ， 
就 通过 智能 手机 ， 在 系统 中 放 一 个 查询 元 组 ， 查 询 元 组 的 内 容 是 对 艺术 品 的 描述 和 一 个 表示 距离 的 域 。 
传播 规则 是 将 元 组 传播 到 附近 所 有 结 点 ， 每 传播 一 次 就 增加 距离 ， 维 护 规则 基 在 一 段 存活 期 (time-to- 
live period) 后 删除 元 组 。 一 旦 这 个 元 组 到 达 艺 术 品 所 在 的 房间 ， 就 在 系统 中 搬 人 一 个 回答 元 组 ， 该 元 
组 包含 了 对 艺术 品 的 描述 、 艺 术 品 的 位 置 和 距离 域 ; 这 次 的 传播 规则 是 沿 着 返回 到 游客 的 路 径 ， 每 传 
播 一 次 就 增加 距离 ， 维 护 规则 还 是 实现 一 个 存活 期 策略 。 最 后 的 结果 是 一 个 高 度 灵 活 的 编程 模型 ， 它 
对 空间 上 与 自 组 织 环 境 相 连 的 操作 非常 有 用 ， 更 广泛 的 ， 对 无 处 不 在 计算 中 的 操作 也 非常 有 用 。 

Limbo; Limbo 是 一 个 复制 的 元 组 空间 实现 ， 用 于 在 移动 环境 中 操作 [Davies et al. 1998 ] 。 而 复 
制 最 常见 的 动机 是 获得 高 可 用 性 和 容错 ，L*imbo 利用 复制 处 理 设备 断 链 。L imbo 采用 了 一 个 完全 复制 
的 方法 ， 其 中 ， 每 个 结 点 维护 一 个 副本 。 目 标 是 保证 副本 集合 的 一 致 性 。 为 了 这 个 目的 ，L imbe 采用 
了 在 亿 组 播 上 的 可 靠 组 播 方法 ( 见 15. 4.2 节 的 讨论 )， 特 别 使 用 了 该 节 中 的 可 伸缩 的 可 靠 组 播 方法 
[Floyd et al. 1997], L’imbo 支持 多 个 元 组 空间 的 创建 ， 每 个 元 组 空间 被 唯一 地 映射 到 一 个 IP 组 播 地 址 
Eo read 和 write 的 实现 相对 直接 ，read 经 常 能 在 本 地 被 满足 ， 而 write 要 映射 到 一 个 (可靠) 组 播 操 
作 上 。 在 给 定 了 全 局 提取 的 需求 后 ，take 的 实现 更 复杂 些 。 这 个 方法 建立 在 Limbo 中 的 拥有 者 的 概念 
上 ， 仅 拥有 者 能 删除 元 组 。 正 常情 况 下 ， 拥 有 者 是 元 组 的 创建 者 ， 但 拥有 权 随 后 被 传递 给 其 他 进程 。 

事件 系统 和 元 组 空间 的 比较 ”如 果 我 们 认为 “事件 ”等 同 于 “元 组 ”,“ 说 明 兴 趣 的 规约 ”等 同 于 
“元 组 匹配 模板 ”， 那 么 这 两 种 互 操作 模型 是 一 致 的 。 两 者 都 提供 一 定 程 度 的 间接 性 ， 这 对 易 变 系 统 是 
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有 用 的 ， 因 为 默认 情况 下 产生 和 使 用 事件 或 元 组 的 组 件 的 身份 对 彼此 是 透明 的 。 这 样 组 件 集合 就 可 以 
透明 地 改变 了 。 然 而 ， 也 有 重要 的 区 别 。 第 一 ， 事 件 模型 是 绝对 异步 的 ， 而 元 组 空间 系统 支持 同步 操 
作 以 检索 匹配 的 元 组 。 同 步 操 作 的 编程 比较 容易 。 另 一 方面 ， 期 望 某 个 组 件 ( 例 如， 动态 遇 到 的 图 像 
产生 设备 ) 最 终 会 提供 匹配 的 元 组 是 错误 的 想法 ， 因 为 断 链 在 任何 时 候 都 可 能 发 生 。 

第 二 个 重要 的 区 别 是 事件 和 元 组 的 生命 期 。 默 认 情况 下 ， 事 件 在 发 布 者 和 订阅 者 间 的 传播 后 消亡 。 
然而 ， 元 组 空间 的 元 组 可 能 比 放置 它 的 组 件 和 任何 读 取 《而 不 是 破坏 性 地 使 用 ) 它 的 组 件 的 生命 期 
长 。 这 种 持久 性 是 一 种 优点 。 例 如 ， 用 户 相机 的 电池 可 能 在 他 将 图 像 上 传 到 宾馆 房间 的 元 组 空间 后 ， 
但 在 将 它们 分 配给 另 一 个 设备 前 用 完 。 同 时 ， 持 久 性 也 可 能 是 一 种 缺点 : 如 果 一 组 不 可 控制 的 设备 将 
元 组 放 到 空间 中 ,但 因为 使 用 元 组 的 组 件 已 经 断 链 而 不 能 使 用 ， 这 将 会 产生 什么 样 的 结果 呢 ? 这 种 空 
间 中 的 元 组 集合 将 不 可 控制 地 增长 。 没 有 关于 易 变 组 件 集合 的 全 局 知识 ， 是 不 可 能 确定 哪些 元 组 是 无 
用 的 。 

事件 堆 的 设计 者 认识 到 了 iRoom 的 持久 性 问题 。 他 们 选择 让 元 组 在 事件 堆 中 待 一 段 时 间 后 过 期 
(也 就 是 垃圾 回收 ) ， 元 组 所 待 的 时 间 通 常 与 人 的 交互 时 间 间 隔 一 致 。 例 如 ， 当 用 户 第 二 天 试图 播放 视 
频 时 ， 该 机 制 能 阻止 一 个 来 自 远程 控制 器 的 未 用 的 “暂停 ”事件 。 

设备 的 直接 互 操作 “前面 的 编程 模型 用 于 间接 关联 的 组 件 间 的 互 操作 。JetSend 和 Speakeasy 是 用 
于 由 人 为 因素 导致 直接 关联 的 两 个 设备 间 的 互 操作 的 系统 。 

JetSend; JetSend 协议 [Winiams 1998] 用 于 家 电 〔( 例 如 照相 机 、 打 印 机 、 扫 描 仪 和 电视 ) 间 的 交 
互 。JetSend 是 面向 数据 的 ， 这 样 家 电 就 不 需要 根据 将 要 交互 的 特定 设备 装载 特殊 的 驱动 程序 了 。 例 
如 ，JetSend 相机 能 发 送 图 像 到 JetSend 图 像 使 用 设备 ， 例 如 打印 机 或 电视 ， 而 不 用 考虑 使 用 者 的 特殊 
功能 。 相 连接 的 JetSend 设备 间 的 主要 通用 操作 是 同步 一 方 呈现 给 另 一 方 的 状态 。 这 意味 着 以 设备 协商 
的 格式 传送 状态 。 例 如 ， 图 像 产生 设备 〈 例 如 扫描 仪 ) 可 通过 使 用 来 自 产 生 者 的 JPEG 格式 的 图 像 与 
图 像 使 用 设备 〈 例 如 数字 相框 ) 同步 。 这 里 ，JPESG 格式 是 从 图 像 产生 者 可 提供 的 几 种 图 像 格式 中 挑选 
出 来 的 。 同 一 个 扫描 仪 可 能 在 使 用 另 一 种 不 同 的 图 像 格式 与 一 个 电视 同步 。 

JetSend 的 设计 者 认识 到 ， 他 们 的 同步 操作 只 对 蜡 构 设备 闻 的 简单 操作 (本质 上 是 数据 传递 ) 有 
利 。 它 回避 了 如 何在 指定 设备 间 达 到 更 复杂 交互 的 问题 。 例 如 ， 在 传递 要 打印 的 图 像 时 ， 如 何在 单 色 
和 彩色 间 做 出 选择 ? 假定 源 设备 没有 特定 打印 机 的 驱动 程序 ， 并 且 对 于 该 设备 不 可 能 编程 得 到 它 可 能 
要 连接 的 任意 设备 (包括 未 发 明 的 设备 ) 的 语义 的 先 验 知识 。JetSend 对 该 问题 的 回答 是 使 用 目标 设备 
指定 的 、 在 源 设备 (例如 相机 ) 上 显示 的 用 户 界面 ， 通 过 人 为 选择 目标 设备 〈 例 如 打印 机 ) 的 特定 功 
能 来 实现 。 这 就 是 用 户 通过 他 们 的 浏览 器 与 高 度 异 构 的 服务 交互 时 ， 在 Web 上 如 何 发 生 互 操作 的 ; 每 
个 服务 将 它 的 接口 以 标记 脚本 的 形式 发 送 给 浏览 器 ， 浏 览 器 以 通用 窗口 小 部 件 集合 的 形式 将 服务 呈现 
给 用 户 ， 而 不 需要 关于 服务 特有 语义 的 知识 。Web 服务 〈 见 第 9 章 ) 试图 以 程序 代替 人 【甚至 在 一 些 
复杂 的 交互 中 也 是 如 此 ) 。 

Speakeasy; Speakeasy 项 目 [Edwards et al. 2002] 采用 了 与 JetSend 相同 的 设计 原理 来 实现 设备 间 的 
互 操作 ,但 有 一 点 不 同 : 它 使 用 了 移动 代码 。 使 用 移动 代码 有 两 个 动机 。 第 一 个 动机 是 设备 (例如 打 
印 机 ) 能 够 将 任何 用 户 接口 发 送 给 另 一 个 设备 (例如 智能 电话 ) 的 用 户 。 用 移动 代码 实现 的 用 户 接 口 
能 够 执行 本 地 处 理 〈 例 如 输入 验证 ) ， 并 且 它 能 够 提供 用 标记 语言 指定 的 用 户 接口 所 不 能 提供 的 交互 
模式 。 然 而 ， 与 该 优点 相对 的 是 ， 必 须要 设置 执行 移动 代码 的 安全 性 ， 相 对 于 能 处 理 有 更 多 约束 的 标 
记 脚 本 ， 移 动 代 码 需 要 复杂 的 保护 机 制 来 预防 特洛伊 森马， 并 且 要 有 在 虚拟 机 上 运行 移动 代码 的 许可 。 

在 设备 互 操作 中 使 用 移动 代码 的 第 二 个 动机 是 优化 数据 传送 。 虽 然 Speakeasy 的 移动 代码 必须 在 主 
机 设备 的 API 限制 内 运作 ， 但 它 可 以 与 发 送 它 的 远程 设备 进行 任意 交互 。 因 此 ， 移 动 代码 能 够 为 传送 
内 容 (内 容 类 型 是 特定 的 ) 实现 优化 的 协议 一 一 例如 ， 视 频 可 能 在 传送 前 被 压缩 。 比 较 而 言 ，JetSend 
只 能 使 用 预定 义 的 内 容 传送 协议 。 


19.3.2 ”间接 关联 和 软 状 态 
当 服 务 (例如 基础 设施 服务 ) 的 资源 能 提供 足够 高 的 可 用 性 时 ， 组 件 与 它 的 关联 就 有 意义 了 。 人 也 
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就 是 说 ， 组 件 期 望 可 以 获得 服务 的 地 址 。 当 组 件 随后 使 用 该 地 址 与 服务 互 操作 时 (例如 关联 后 10 分 
钟 )， 它 们 仍然 可 以 希望 它 是 可 达 的 并 且 是 可 响应 的 。 然 而 ,通常 情况 下 ， 系 统 易 变 性 使 得 依赖 某 特定 
组 件 提供 的 服务 是 不 可 能 的 ， 因 为 该 组 件 可 以 在 任何 时 候 离 开 或 失效 。 从 这 个 区 别 中 得 到 的 教训 是: 
有 必要 告诉 程序 员 哪 些 服 务 是 高 可 用 的 ， 哪 些 服务 是 易 变 的 。 此 外 ,为 了 处 理 易 变性 ， 需 要 给 他 们 提 
供 不 依 赖 特定 组 件 的 编程 技术 。 

以 上 儿 种 面向 数据 编程 系统 的 例子 涉及 间接 的 、 匿 名 的 关联 。 特 别 是 ， 通 过 事件 系统 或 元 组 空间 
互 操作 的 组 件 未 必 知 道 彼此 的 名 字 或 地 址 。 只 要 事件 服务 或 元 组 空间 继续 存在 ， 单 个 组 件 可 以 进 人 、 
离开 ， 或 被 替代 。 这 需要 小 心 维护 整个 系统 的 正确 操作 ， 但 至 少 组 件 的 编写 者 不 需要 管理 与 经 常会 消 
失 的 结 点 的 关联 。 

使 用 间接 关联 的 客户 - 服务 器 系统 的 一 个 例子 是 意图 名 字 系 统 (Intentional Name System, INS) 
[Adjie- Winoto et al. 1999 ] 。 组 件 发 起 请 求 ， 说 明 所 需 服务 的 属性 、 要 调用 的 操作 和 参数 。 组 件 不 需要 
说 明 所 需 服务 实例 的 名 字 或 地 址 ， 因 为 INS 自动 将 操作 和 参数 路 由 到 一 个 合适 的 (如 本 地 的 )、 与 所 需 
属性 相 匹 配 的 服务 实例 。 因 为 指向 相同 属性 说 明 的 后 续 操 作 可 能 由 不 同 的 服务 器 组 件 处 理 ， 所 以 INS 
假设 那些 服务 器 是 无 状态 的 ， 或 者 使 用 第 18 章 描述 的 某 种 技术 复制 它们 的 状态 。 

这 导致 了 一 个 常见 问题 : 在 易 变 系统 中 程序 员 如 何 设法 管理 状态 ? 第 18 章 的 复制 技术 允许 资源 的 
宛 余 ， 在 易 变 系统 中 资源 可 能 不 可 用 一 一 至 少 ， 不 是 持续 可 用 的 。 复 制 技术 也 导致 了 额外 通信 ， 从 而 
导致 相关 的 能 量 消耗 和 性 能 降低 ， 所 以 额外 通信 可 能 是 不 实际 的 。 

Lamport 的 “Paxos” 或 “Part-time Parliament” 算 法 [1998] 提供 了 一 种 忽略 易 变性 而 达到 分 布 式 
一 致 的 方法 一 一 假定 参与 的 进程 有 规律 地 、 独 立地 消失 和 重新 出 现 。 不 过 ， 该 算法 依赖 于 每 个 进程 访 
问 自己 的 持久 性 存储 。 

相 比 之 下 ， 一 些 实现 使 用 软 状 态 (soft state) 来 提供 不 太 严格 但 有 用 的 一 致 性 保证 ， 甚 至 在 没有 持 
续 可 用 的 持久 性 存储 的 情况 下 。Clark [Clark 1998] 引入 了 软 状 态 的 概念 ， 作 为 一 种 管理 互联 网 路 由 
器 的 配置 方式 ， 而 且 不 考虑 故障 情况 。 路 由 器 集合 是 一 个 易 变 系统 ， 即 使 系统 中 没有 路 由 器 能 够 保证 
总 是 可 用 ， 但 是 系统 也 必须 能 持续 运作 。 软 状态 的 定义 一 直 处 于 争论 之 中 [Raman and McCanne 
1999] ， 但 从 广义 上 讲 ， 它 是 提供 提示 信息 的 数据 〈 也 就 是 说 ， 它 提供 的 数据 可 能 是 过 时 的 ， 并 且 从 严 
格 意义 上 讲 不 应 该 被 依赖 ) ， 而 且 ， 最 重要 的 是 ， 软 状态 的 源 会 自动 更 新 它 。 一 些 发 现 系统 ( 见 19. 2 
节 ) 给 出 了 软 状态 在 管理 服务 注册 条 目 集合 上 的 应 用 。 条 目 只 是 提示 一 一 可 能 有 某 一 服务 的 条 目 ， 但 
该 服务 已 经 消失 。 条 目 通过 服务 的 组 播 自 动 地 更 新 一 一 增加 新 条 第 和 保持 现 有 的 条 目 。 


19.3.3 ”小 结 和 前 景 


本 节 描述 了 易 变 系统 组 件 间 的 互 操作 模型 。 如 果 每 个 智能 空间 都 开发 它 自己 的 编程 接口 ， 那 么 移 
动 性 的 好 处 就 无 法 体现 。 如 果 一 个 组 件 不 是 源 于 给 定 的 智能 空间 而 是 移动 到 该 空间 的 ， 那么 它 与 智能 
空间 内 服务 互 操作 的 唯一 方法 将 是 使 它 的 接口 自发 地 适应 新 环境 的 接口 。 实 现 这 个 日 标 需 要 非常 复杂 
的 运行 支持 ， 除 实验 中 已 有 几 个 例子 外 ， 这 仍 是 不 现实 的 。 

通过 上 面 几 个 例子 的 描述 可 知 ， 另 一 种 解决 方法 是 使 用 面向 数据 编程 。 一 方面 ，Web 显示 了 该 范 
型 的 可 扩展 性 和 极 大 的 可 应 用 性 。 另 一 方面 ， 没 有 “尚方 宝剑 ”能 够 解决 易 变 系统 互 操作 的 所 有 问 
题 。 面 向 数据 的 系统 是 在 接口 的 函数 集合 上 达成 一 致 而 不 是 在 作为 参数 传递 给 那些 函数 的 数据 的 类 型 
Eps Be, RAF XML ( 见 4.3.3 节 ) 使 得 数据 能 够 “自我 描述 "， 所 以 有 时 用 作 一 种 便于 数据 互 操 
作 的 方式 ,但 是 实际 上 它 仅 提供 了 表示 结构 和 词汇 的 框架 。XML 本 身 对 什么 是 语义 问题 没有 贡献 。 有 
些 作者 认为 “语义 Web” [www. w3. org XX] 将 在 实现 无 人 介 和 的、 机 器 之 间 的 互 操作 上 占据 一 席 
之 地 。 


19.4 感知 和 上 下 文敏 感 


前 面 几 节 重点 介绍 了 移动 和 普 适 系统 的 易 变 性 方面 。 本 节 将 着 重 介 绍 系统 的 其 他 特征 ， 与 物理 世 
界 集成 的 特征 。 特 别 地 ， 将 会 考虑 用 于 处 理 从 传感器 收集 的 数据 的 体系 结构 和 对 (感知 的 ) 物理 环境 
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做 出 响应 的 上 下 文敏 感 系统 。 我 们 还 将 详细 论述 位 置 感知 一 一 一 个 重要 的 物理 参数 。 

因为 我 们 考虑 的 用 户 和 设备 是 经 常 移动 的 ， 并 日 物 理 世 界 为 跨越 时 空 的 大 量 交 互 提供 了 不 同 的 机 
会 ,所 以 它们 的 物理 环境 通常 是 系统 行为 的 决定 性 因素 。 汽 车 的 上 下 文敏 感 刹车 系统 应 该 能 根据 路 面 
是 否 覆盖 着 冰 来 调整 它 的 行为 。 个 人 设备 应 该 能 够 自动 利用 在 它 的 环境 中 探测 到 的 资源 ， 例 如 一 个 大 
显示 器 。 活 动 徽 章 系统 提供 了 一 个 历史 上 的 例子 : 在 移动 电话 出 现 之 前 ， 用 户 的 位 置 〈 也 就 是 他 们 所 
穿戴 的 徽章 所 在 的 位 置 ) 用 于 确定 他 们 的 电话 应 该 路 由 到 哪个 电话 机 上 (Want et al. 1992) 。 

实体 (人 、 位 置 或 物体 ， 不 论 是否 是 电子 的 ) 的 上 下 文 是 与 系统 行为 相关 的 物理 环境 的 一 个 方 
面 。 它 包括 相对 简单 的 值 ， 例 如 位 置 、 时 间 、 温 度 ; 一 个 相关 联 的 用 户 〈 例 如 ， 操 作 设备 的 用 户 或 附 
近 的 用 户 ) 的 标识 符 ; 物品 (例如 另 一 个 设备 ， 如 显示 器) 的 存在 和 状态 。 可 以 通过 规则 编 所 和 作用 
于 上 下 文 ， 例 如 “如 果 用 户 是 Fred 并 且 他 在 1Q 实验 室 的 会 议 室 ， 同 时 如 果 在 他 1 米 范 围 内 有 一 个 显 
示 器 ， 那 么 就 将 设备 上 的 信息 显示 在 显示 器 上 一 一 除非 有 非 1Q 实验 室 的 员工 在 场 *"。 上 下 文 也 包括 比 
较 复 杂 的 属性 ， 如 用 户 的 活动 。 例 如 ， 上 下 文敏 感 手机 决定 是 否 要 响 铃 时 ， 需 要 以 下 问题 的 答案 : 用 
户 正在 电影 院 看 电影 ， 还 是 正在 放映 前 与 他 们 的 朋友 聊天 ? 


19.4.1 ”传感器 


上 下 文 值 的 确定 依赖 于 传感器 ， 传 感 器 是 用 来 测量 上 下 文 值 的 硬件 和 /或 软件 的 结合 物 。 下 面 给 出 
一 些 例子 ， 

RE, REPFRERS: 卫星 导航 (CPS) 装置 提供 全 球 坐标 和 速度 ;加 速 计 用 来 监测 移动 ; 
磁力 计 和 陀螺 仪 提供 方位 数据 。 

周围 环境 传感器 : 温度 计 ; 测量 光线 强度 的 传感器 ;感受 声音 强度 的 麦克 风 。 

存在 传感器 : 用 来 测量 物理 负重 的 传感器 ， 例 如 探测 到 人 坐 在 椅子 上 或 走 过 某 块 地板 ; 读 取 靠 近 
它们 的 标签 的 电子 标识 符 的 设备 ， 例 如 REID (无 线 射频 识别 ，NFC 的 一 个 子 集 ) 阅读 器 [Want 
2004] ， 或 红外 线 阅 读 器 〈 例 如 那些 用 于 感知 活动 徽章 的 ) ， 用 于 检测 计算 机 的 按键 按 下 的 软件 。 

以 上 分 类 只 有 作为 用 于 某 种 目的 的 传感器 的 例子 时 才 有 意义 。 一 个 给 定 的 传感器 可 能 有 多 种 用 途 。 
例如 ， 在 会 议 室 用 麦克 风 可 监测 人 的 存在 ; 可 通过 在 已 知 地 点 检测 对 象 的 活动 徽章 来 确定 它 的 位 置 。 

传感器 的 一 个 很 重要 的 方面 是 它 的 误差 模型 。 任 何 传感器 产生 的 数值 都 带 有 一 定 程度 的 误差 。 有 
些 传感器 〈 例 如 温度 计 ) 可 以 通过 精密 地 制造 从 而 将 误差 控制 在 一 个 已 知 的 可 容忍 的 范围 内 ， 或 属于 
一 个 已 知 分 布 ( 如 Gaussian 分 布 ) 。 其 他 传感器 ， 如 卫星 导航 装置 ， 有 一 个 依赖 于 当时 环境 的 复杂 的 
误差 模型 。 第 一 ， 在 某 些 环境 下 ， 它 们 可 能 根本 无 法 产生 数值 。 卫 星 导 航 装 置 依赖 于 当时 可 见 的 卫星 
集合 。 它 们 通常 在 建筑 物 内 根本 无 法 工作 ， 建筑 物 的 墙壁 可 以 大 大 削弱 卫星 信号 。 第 二 ,装置 位 置 的 
计算 依赖 于 一 些 动态 因素 ， 包 括 卫星 位 置 、 附 近 的 障碍 物 和 电离 层 。 即 使 在 建筑 物 外 ， 在 不 同 的 时 间 ， 
装置 通常 会 为 同一 位 置 给 出 不 同 的 数值 ， 这 些 数值 只 是 当前 精确 度 的 一 个 尽力 而 为 的 估计 。 靠 近 建 筑 
物 或 其 他 庶 芯 或 反射 无 线 电信 号 的 高 大 物体 时 ， 只 有 当 可 见 卫 星 足 够 多 时 才能 产生 一 个 读数 ,但 是 精 
确 度 可 能 很 低 甚至 读数 可 能 是 完全 虚假 的 。 

用 来 陈述 传感器 误差 的 一 个 有 用 的 方法 是 引用 精确 度 ， 说 明 测量 值 达到 了 一 个 指定 的 比例 。 例 如 ， 
“在 给 定 区 域内 ， 在 90% 的 测量 中 ， 卫 星 导 航 装置 的 精确 度 在 10 米 以 内 ”。 另 一 种 方法 是 为 某 次 测量 
标定 一 个 置信 值 一 一 该 数值 的 选择 依据 测量 中 遇 到 的 不 确定 性 (通常 为 0~1)。 


19. 4.2 感知 体系 结构 


Salber 等 [1999] 认为 在 设计 上 下 文敏 感 系统 中 有 四 个 功能 性 方面 的 挑战 需要 克服 : 

异 质 传 感 器 的 集成 : 上 下 文敏 感 计算 所 需 的 一 些 传 感 器 在 它们 的 结构 和 编程 接口 上 是 不 一 般 的 。 
可 能 需要 特殊 的 知识 才能 在 感 兴趣 的 物理 场景 中 正确 地 部 署 它们 (Am, KWRA KKPS, M 
速 计 应 该 放 在 娜 ) ， 并 且 可 能 产生 系统 问题 ， 例 如 标准 操作 系统 的 驱动 程序 的 可 用 性 。 

传感器 数据 的 提取 : 应 用 程序 要 求 对 上 下 文 属性 进行 抽象 ， 以 避免 涉及 单个 传感器 的 特殊 点 。 但 
问题 是 ， 即 使 用 于 相似 用 途 的 传感器 也 会 提供 不 同 的 原始 数据 。 例 如 ， 一 个 给 定 的 位 置 可 能 被 卫星 导 
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航 传感器 感知 成 纬度 /经 度 对 ， 或 者 被 附近 的 红外 线 源 感知 成 “Joe's Cafs” 字 符 串 。 应 用 程序 所 需要 
的 可 能 是 两 者 之 一 或 两 者 都 需要 或 两 者 都 不 需要 。 需 要 对 上 下 文 属性 的 含义 达成 一 致 ， 需 要 软件 从 传 
感 器 原始 数值 中 推断 出 这 些 属性 。 

传感器 输出 可 能 需要 结合 : 可 靠 地 感知 一 种 现象 可 能 需要 结合 来 自 几 个 有 误差 的 数据 源 的 数据 。 
例如 ， 检 测 人 的 出 现 可 能 需要 : 麦克 风 (用 来 检测 声音 ， 但 附近 的 声音 会 产生 干扰 ) 、 地 板 压力 传 感 
器 〈 用 来 监测 人 的 活动 ， 但 很 难 区 分 不 同 用 户 的 模式 ) 以 及 录像 机 〈 用 来 监测 人 的 形体 ， 但 很 难 区 分 
面部 特征 ) 。 传 感 器 融合 (sensor fusion) 是 指 结合 多 个 传感器 源 以 减少 错误 。 同 样 的 ， 应 用 为 了 收集 
操作 需要 的 多 种 上 下 文 属性 ， 可 能 需要 不 同类 型 的 传感器 输出 。 例 如 ， 一 个 上 下 文敏 感 的 智能 手机 为 
了 决定 是 否 将 它 的 数据 投影 到 附近 的 一 个 显示 器 上 ， 需 要 来 自 不 同 传感器 源 的 数据 ， 包 括 监测 现场 有 
谁 和 什么 设备 的 传感器 以 及 一 个 或 多 个 感知 位 置 的 传感器 。 

上 下 文 是 动态 的 : 上 下 文敏 感应 用 通常 需要 对 上 下 文 的 变化 做 出 响应 ， 并 且 不 是 只 读 取 上 下 文 的 
一 个 快照 。 例 如 ， 如 果 非 员工 进入 或 者 如 果 Fred (设备 的 主人 ) 离开 房间 ， 上 下 文敏 感 的 智能 手机 必 
须 清 除 房间 里 显示 器 上 的 数据 。 

研究 者 已 经 设计 出 了 各 种 软件 体系 结构 以 支持 上 下 文敏 感应 用 ， 同 时 处 理 上 面 提 到 的 一 些 或 所 有 
问题 。 我 们 将 给 出 一 些 体系 结构 的 例子 ， 它 们 用 于 传感器 几乎 是 已 知 的 和 静态 的 情况 ， 或 者 用 于 确定 
来 自 易 变 传感器 集合 的 上 下 文 属性 一 一 此 时 非 功能 性 需求 〈 如 能 量 节约 ) 也 变 得 很 重要 。 

基础 设施 中 的 感知 ”活动 徽章 传感器 最 初 部 署 在 英国 剑桥 Olivetti 研究 室 ， 位 于 建筑 物 内 已 知 的、 
固定 的 地 点 。 最 初 的 上 下 文敏 感应 用 之 一 是 电话 接线 员 帮 助 系统 。 如 果 有 人 打 电 话说 让 Roy 接 电话 ， 
接线 员 就 会 在 屏幕 上 查找 Roy 的 房间 位 置 ， 随 后 将 电话 转 到 一 个 最 合适 的 分 机 。 系 统 从 最 近 一 次 感知 
Roy 穿戴 的 徽章 的 信息 中 确定 Roy 的 位 置 ， 并 将 信息 显示 给 接线 员 。Olivetti 研究 室 和 Xerox PARC 进 一 
步 精 化 了 用 于 处 理 活动 徽章 数据 和 其 他 上 下 文 数据 的 系统 。Harter 和 Hopper [1994] 描述 了 一 种 用 于 
处 理 位 置 事件 的 完整 的 系统 。Schilit 等 [1994] 也 描述 了 一 种 通过 调用 所 谓 的 上 下 文 触发 动作 (con- 
text-triggered action) 从 而 对 活动 徽章 感知 事件 进行 处 理 的 系统 。 例 如 ， 应 用 下 面 的 规约 : 

Coffee Kitchen arriving play-v 50 / sounds/rooster.au' 

那么 ， 当 感知 到 徽章 靠近 安装 在 厨房 的 咖啡 机 上 的 传感器 时 ， 就 会 发 出 一 种 声音 。 

上 下 文 工 具 包 [Salber et al. 1999] 是 比 那些 基于 特殊 技术 (如 活动 徽章 ) 的 应 用 更 通用 的 上 下 文 
敏感 应 用 所 使 用 的 一 种 系统 体系 结构 。 正 是 上 下 文 工 具 包 的 设计 者 们 阐述 了 上 面 列 出 的 上 下 文敏 感 系 
统 面临 的 四 个 挑战 。 他 们 的 体系 结构 遵循 了 如 何 通过 可 重用 窗口 部 件 库 构成 图 形 用 户 界面 的 模型 ， 这 
种 方式 对 应 用 的 开发 人 员 隐 藏 了 对 底层 硬件 处 理 的 大 多 数 细节 和 大 部 分 的 交互 管理 。 上 下 文 工 具 包 定 
义 了 上 下 文 窗口 部 件 〈context widget) 。 那 些 可 重用 软件 组 件 给 出 了 一 些 上 下 文 属 性 类 的 抽象 表示 ， 同 
时 隐藏 了 实际 使 用 的 传感器 的 复杂 性 。 例 如 ， 图 19-5 显示 了 JdentityPresence 窗口 部 件 的 接口 。 它 通过 
轮 询 窗 口 部 件 将 上 下 文 属性 提供 给 软件 ， 并 在 上 下 文 信息 改变 时 〈 即 用 户 到 达 或 离开 ) 发 起 调用 。 如 
上 所 述 ， 可 以 从 给 定 实现 中 的 多 个 传感器 的 组 合 的 任何 一 个 中 得 到 人 员 出 现 信息 ; 抽象 使 得 应 用 程序 
编写 者 忽略 了 那些 细节 。 





属性 (通过 轮 询 访问 ) 说 明 
Location 窗口 部 件 正在 监控 的 位 置 
Identity 上 一 个 被 感知 的 用 户 ID 
Timestamp 5 上 一 次 到 达 的 时 间 
回调 
PersonArrives(location, identity, timestamp) 用 户 到 达 时 触发 
PersonLeaves(location, identity, timestamp) 用 户 离开 时 触发 











图 19-5 上 下 文 工 具 包 的 IdentityPresence 窗口 部 件 类 


窗口 部 件 是 从 分 布 式 组 件 中 构建 的 。 生 成 器 (generator) 从 传感器 〈 比 如 地 板 压力 传感器 ) 中 得 
到 原始 数据 ， 并 且 将 数据 提供 给 窗口 部 件 。 窗 口 部 件 使 用 解释 器 (interpreter) 服务 ， 该 服务 从 生成 器 
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的 原始 数据 中 提取 上 下 文 属性 ， 得 到 较 高 层 的 值 ， 例 如 从 人 的 不 同 脚步 声 中 判断 出 人 的 身份 。 最 后 ， 
由 名 为 服务 器 (server) 的 部 件 提供 更 高 层 的 抽象 ， 该 抽象 是 通过 从 其 他 小 部 件 收集 、 存 储 并 解释 上 下 
文 属性 得 到 的 。 例 如 ， 建 筑 物 的 一 个 PersonFinder 部 件 能 够 由 该 建筑 物 内 各 个 房间 的 IdentityPresence 部 
件 构 成 ( 见 图 19-6) 。IdentityPresence 部 件 又 可 以 用 基于 地 板 压力 读数 的 脚步 解释 或 基于 视频 捕捉 的 脸 
部 识别 来 实现 。PersonFinder 窗口 部 件 为 应 用 程序 编写 者 封装 了 建筑 物 的 复杂 性 。 


PersonFinder 


re | Tie 


Widgets 
Sa T IdentityPresence 房间 B 


~ 


房间 A IdentityPresence 





脚步 识别 
《解释 器 ) 





面部 识别 


地 板 压力 〈 生 成 器 视频 (生成 器 》 (解释 器 ) 





图 19-6 使 用 IdentityPresence 窗口 部 件 构建 PersonFinder 窗口 部 件 


查看 一 下 上 下 文 工 具 包 体系 结构 与 这 些 设计 者 提出 的 四 个 挑战 的 关系 ， 我 们 看 到 他 们 设计 的 体系 
结构 容纳 了 各 种 类 型 的 传感器 ， 它 从 传感器 的 原始 数据 中 获得 抽象 的 上 下 文 属性 ， 上 下 文敏 感应 用 程 
序 通过 轮 询 或 回调 的 方式 来 获知 上 下 文 的 变化 。 但 该 工具 包 的 实用 性 有 限 。 它 并 没有 帮助 用 户 和 程序 
员 集 成 异 质 的 传感器 ， 也 没有 解决 实际 案例 中 任何 解释 和 组 合 过 程 所 固有 的 难题 。 

无 线 传感器 网 络 ”我 们 已 经 讨论 过 了 传感器 集合 相对 稳定 的 应 用 的 体系 结构 。 例 如 ， 传 感 器 安装 
在 建筑 物 的 房间 内 ， 通 常 有 外 部 电源 和 有 线 网 络 连 接 。 我 们 现在 转 而 研究 由 传感器 集合 形成 一 个 易 变 
系统 的 情况 。 无 线 传感器 网 络 (wireless sensor network) 包括 很 多 的 〈 通 常 是 大 量 的 ) 、 小 的 、 低 成 本 
设备 或 结 点 ， 每 一 个 结 点 都 带 有 用 于 感知 、 计 算 和 无 线 通 信 的 设施 [Culler et al. 2004] 。 它 是 自 组 织 网 
络 的 一 个 特例 ; 结 点 在 物理 上 几乎 是 随意 安排 的 ， 但 它们 可 以 通过 结 点 间 的 物理 多 跳 进 行 通 信 。 这 些 
网 络 的 一 个 重要 的 设计 目标 是 在 无 全 局 控制 条 件 下 运作 ， 每 个 结 点 通过 发 现 它 的 无 线 邻 居 和 与 它们 的 
通信 来 自 举 它 自己 。3. 5. 2 节 描 述 了 802. 11 网 络 中 的 自 组 织 配 置 ， 但 在 这 里 更 相关 的 是 为 了 低 功 率 技 
术 ， 如 ZigBee (IEEE 802. 15.4). 

结 点 不 是 通过 单 跳 与 其 他 结 点 进行 通信 ， 而 只 与 相 邻 的 结 点 直接 通信 ， 其 原因 是 ， 无 线 通信 在 能 
量 消耗 上 是 很 大 的 (与 无 线 电 射程 的 平方 成 正比 )。 男 一 个 限制 无 线 电 射 程 的 主要 原因 是 减少 网 络 
竞争 。 

无 线 传 感 网 络 被 设计 成 加 入 到 一 个 已 存在 的 自然 或 人 造 的 环境 中 ， 并 且 不 依赖 环境 运作 一 一 即 不 
依赖 基础 设施 。 由 于 它们 的 无 线 电波 和 感知 范围 有 限 ， 结 点 必须 安装 得 足够 密集 从 而 使 得 在 任意 两 结 
点 间 的 多 跳 通 信 成 为 可 能 ， 使 得 能 够 感知 重大 的 现象 。 

例如 ， 考虑 设备 遍布 整个 森林 ， 它 们 的 任务 是 监控 火灾 和 其 他 环境 条 件 ， 如 动物 出 现 。 这 些 结 点 
非常 像 19. 1. 1 节 介 绍 的 设备 。 它 们 各 自 有 附属 的 传感器 ， 用 于 检测 温度 、 声 音 和 光亮 ; 它们 使 用 电池 
组 ; 此 外 ， 它 们 与 其 他 设备 以 对 等 方式 通过 短程 无 线 电 通信 进行 交流 。 易 变性 源 于 设备 会 因为 电池 耗 
尽 或 者 事故 〈 如 火灾 ) 而 停止 运转 ， 并 且 它 们 的 连通 性 可 能 由 于 结 点 故障 〈 结 点 在 其 他 结 点 之 间 中 继 
包 ) 或 影响 无 线 电 传播 的 环境 条 件 而 改变 。 

另 一 个 例子 是 用 于 监控 交通 和 路 面条 件 的 结 点 安装 在 车 辆 上 的 什么 位 置 。 观 察 到 不 佳 情 况 的 结 点 
可 以 将 该 消息 通过 从 该 结 点 旁 经 过 的 车 辆 上 的 结 点 传送 。 如 果 连 通 性 足够 充分 ， 那 么 该 系统 能 够 警告 
出 现在 该 问题 前 方 附近 的 其 他 驾驶 者 。 在 这 里 ， 出 现 易 变性 主要 是 由 于 结 点 的 运动 ， 运 动 会 迅速 地 改 
变 每 个 结 点 与 其 他 结 点 的 连通 性 。 这 是 移动 自 组 织 网 络 (mobile ad hoc network) 的 一 个 例子 。 

通常 ， 无 线 传 感 网 络 专用 于 应 用 特定 的 目的 ， 等 同 于 检测 某 种 警报 (alarm)， 即 感 兴趣 的 情况 
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(比如 火灾 或 糟糕 的 路 面 情况 ) 。 该 网 络 中 至 少 包括 一 台 功 能 强大 的 设备 ， 称 为 根 结 点 ， 用 于 与 响应 警 
报 的 常规 系统 进行 远 距 离 通 信 一 一 例如 ， 发 生火 灾 时 呼叫 紧急 服务 。 

构造 传感器 网 络 软件 体系 结构 的 一 种 方法 是 通过 从 高 层 中 分 离 出 网 络 层 ， 并 把 它们 类 似 地 看 做 传 
统 网 络 。 特 别 地 ， 当 它们 动态 地 发 现 它们 自己 已 经 通过 直接 无 线 电 链接 连接 上 了 ， 并 且 每 个 结 点 都 能 
够 作为 与 其 他 结 点 通信 的 路 由 器 时 ， 就 可 以 对 结 点 图 采用 已 有 的 路 由 算法 。 自 适应 路 由 试图 适应 网 络 
的 易 变 性 ， 目 前 它 已 是 研究 的 热点 ，Milanovic 等 [2004] 提供 了 相关 技术 的 概述 。 

然而 ， 对 网 络 层 的 关心 引发 了 下 面 的 问题 。 第 一 ， 自 适应 路 由 算法 未 必 考 虑 低能 量 (和 带宽 ) 消 
耗 。 第 二 ， 易 变性 破坏 了 传统 的 网 络 层 以 上 层 的 一 些 假设 。 无 线 传 感 网 络 软件 体系 结构 的 另 一 种 具有 
第 一 原理 性 的 方法 是 由 两 个 主要 需求 驱动 的 : 能 量 节 约 和 在 易 变 性 条 件 下 持续 运作 。 这 两 个 因素 导致 
了 三 个 主要 的 体系 结构 特征 : 网 内 处 理 ， 容 中 断 网 络 和 面向 数据 的 编程 模型 。 

网 内 处 理 : 无 线 通 信 不 但 能 量 消耗 过 高 ， 而 且 与 处 理 相 比 代价 也 很 高 。Pottie 和 Kaiser [2000] it 
算 了 能 量 消 耗 ， 发 现 无 线 电 将 1K 比特 数据 传输 100 米 所 使 用 的 能 量 (3J) 可 以 令 一 台 通 用 处 理 器 执行 
300 万 条 指令 。 因 此 ， 通 常情 况 下 ， 处 理 优 于 通信 : 最 好 花费 几 个 处 理 器 周期 来 决定 是 否 仍 需 要 通信 ， 
而 不 是 育 目 地 传送 感知 到 的 数据 。 毫 无 疑问 ， 这 是 为 什么 传感器 网 络 的 结 点 有 处 理 能 力 的 原因 一 一 否 
则 ， 它 们 可 能 只 由 感知 模块 和 将 感知 的 数值 发 送 到 根 结 点 处 理 的 通信 模块 组 成 。 

网 内 处 理 (in-network processing) 是 指 在 传感器 网 络 内 处 理 ， 也 就 是 说 ， 在 网 络 结 点 上 处 理 。 传 
感 器 网 络 中 的 结 点 执行 如 下 任务 : 求 来 自 邻 近 结 点 的 数值 的 总 和 或 平均 值 ， 从 而 为 一 个 区 域 而 不 是 单 
个 传感器 过 滤 掉 不 感 兴趣 的 或 重复 的 数据 ; 检查 数据 以 检测 警报 ; 根据 感知 的 数据 接 通 或 关 掉 传 感 器 。 





例如 ， 如 果 低 功率 光线 传感器 指示 可 能 有 动物 出 现 〈 由 于 影子 的 投射 ) ， 那 么 影子 投射 的 位 置 附近 的 


结 点 就 会 接 通 它们 的 高 功率 传感器 ， 例 如 麦克 风 ， 试 图 探测 动物 的 声音 。 在 该 方案 中 ， 为 了 节约 能 量 ， 
应 该 在 其 他 情况 下 关闭 麦克 风 。 

容 中 断 网 络 : 端 对 端的 争论 ( 见 2.3.,3 节 ) 是 分 布 式 系统 的 一 个 重要 的 体系 结构 方面 的 原则 。 然 
而 ， 在 易 变性 系统 〈 例 如 传感器 网 络 ) 中 ， 可 能 没有 持续 存在 时 间 足 够 长 的 端 对 端 路 径 去 实现 一 个 操 
作 ( 例 如 大 块 数据 在 系统 中 移动 )。 术 语 容 中 断 网 络 (disruption tolerant networking) 和 容 延 迟 网 络 
(delay tolerant networking) 用 于 那些 在 易 变 〈 通 常 异 构 ) 网 络 上 实现 高 层 传输 的 协议 [www. ding. org]. 
这 个 技术 不 仅 用 于 传感器 网 络 ， 而 且 可 以 用 于 其 他 易 变 网 络 ， 例 如 空间 研究 需要 的 星际 间 通 信和 系统 
[ www. ipnsig. org ] 。 通 信 并 不 是 依赖 两 个 固定 端点 间 的 持续 连通 性 进行 ， 而 是 寻找 机 会 进行 : 数据 在 它 
能 够 传输 的 时 候 传输 ， 并 且 结 点 以 存储 转发 方式 承担 起 传输 数据 的 责任 ， 直 至 达到 端 对 端 目 标 〈 例 如 ， 
传输 大 块 数据 ) 。 结 点 间 的 传输 单元 称 为 素 〈bundle) [Fall 2003] ， 它 包括 了 源 端 应 用 程序 数据 和 描述 
如 何在 终点 和 中 间 结 点 管理 和 处 理 它 的 数据 。 例 如 ， 一 个 束 可 能 通过 逐 跳 可 靠 传输 来 传送 。 束 一 旦 交 
付 ， 接 收 结 点 就 承担 起 随后 的 传递 责任 ， 以 此 类 推 。 这 个 过 程 不 依赖 任何 持续 的 路 由 ， 而 且 资 源 不 足 
的 结 点 将 数据 传送 给 下 一 路 之 后 ， 就 将 存储 数据 释放 了 。 为 了 预防 故障 ， 数 据 可 以 元 余地 转发 给 多 个 
相 邻 结 点 。 

面向 数据 的 编程 模型 : 考虑 应 用 层 的 互 操作 ， 面 向 数据 的 技术 包括 定向 扩散 (directed diffusion) 
和 分 布 式 查询 处 理 (distributed query processing) ， 简 单 说 ， 它 们 被 开发 出 来 用 于 传感器 网 络 的 应 用 。 这 
些 技术 通过 包含 处 理 分 布 在 结 点 间 的 方法 来 承认 网 内 处 理 的 需要 。 此 外 ， 这 些 技 术 通 过 消除 结 点 的 标 
识 〈 和 其 他 组 件 的 名 字 ， 例 如 与 结 点 相关 的 进程 和 对 象 ) 来 承认 传感器 网 络 的 易 变性 。 正 如 我 们 在 
19. 3.2 节 所 讨论 的 ， 任 何 依赖 于 结 点 或 组 件 的 持续 存在 的 程序 在 易 变 系统 中 不 会 工作 得 很 健壮 ， 因 为 
存在 与 结 点 或 组 件 无 法 通信 的 可 能 。 

在 定向 扩散 [Heidemann et al. 2001] 中 ， 由 程序 员 说 明 兴 趣 ， 所 谓 兴 趣 是 要 注入 到 系统 中 称 为 模 
(sink) 的 结 点 的 任务 的 声明 。 例 如 ， 一 个 结 点 可 能 对 动物 的 出 现 感 兴趣 。 每 个 兴趣 包括 若干 属性 - 值 
对 ， 它 们 是 将 要 执行 该 任务 的 结 点 的 “名 字 ”。 这 样 ， 对 结 点 的 引用 不 是 通过 它 的 标识 而 是 通过 执行 
所 要 求 任务 所 需要 的 特性 ， 比 如 在 某 个 可 感知 的 范围 内 的 值 。 

运行 时 系统 (runtime system) 在 称 为 扩散 (AILE 19-7a) 的 进程 中 将 兴趣 从 一 个 槽 传 站 网 络 。 
槽 将 兴趣 转发 给 相 邻 结 点 。 任 何 收 到 兴趣 的 结 点 在 将 它 向 前 传播 以 搜索 匹配 该 兴趣 的 结 点 之 前 ， 保 存 
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它 的 一 个 记录 以 及 回 传 数 据 给 槽 结 点 所 需要 的 信息 ， 源 结 点 〈souree) 是 一 个 匹配 兴趣 的 结 点 ， 它 的 
特性 与 兴趣 中 说 明 的 属性 - 值 对 相 匹配 一 一 例如 ， 它 可 能 装配 了 合适 的 传感器 。 对 于 一 个 给 定 兴 趣 ， 
可 能 有 多 个 源 结 点 (就 像 将 兴趣 注入 多 个 材 ) 。 当 运行 时 系统 找到 一 个 匹配 的 源 结 点 时 ， 它 将 兴趣 传 
给 应 用 程序 ， 应 用 程序 接 通 它 所 需要 的 传感器 并 产生 梢 结 点 所 需要 的 数据 。 运 行 时 系统 沿 着 由 从 模 传 
递 兴趣 而 到 达 的 结 点 所 构成 的 逆向 路 径 回 送 数据 给 模 。 





H H 槽 
AN k 、 
\ 
Ap i 
+ 源 源 
a) 兴趣 的 传播 b) 建立 梯度 c) 数据 传送 
图 19-7 定向 扩散 


一 般 来 说 ， 没 有 结 点 事先 了 解 其 他 哪个 结 点 可 作为 源 ， 因 此 定向 扩散 可 能 包括 大 量 多 余 的 通信 。 
最 坏 情况 下 ， 一 个 兴趣 可 能 浪 布 整个 网 络 。 然 而 ， 有 时 候 兴趣 只 与 某 个 物理 区 域 相关 ,例如 森林 中 的 
一 个 特定 区 域 。 如 果 传感器 结 点 知道 它们 的 位 置 ， 那 么 兴趣 只 需 传播 到 目标 区 域 。 从 原则 上 讲 ， 结 点 
为 了 达到 该 目的 应 装配 卫星 导航 接收 器 ， 尽 管 自然 覆盖 〈 如 茂密 的 树木 ) 可 能 阻碍 接收 数据 。 

从 源 到 槽 的 数据 回流 由 梯度 控制 ， 梯 度 是 结 点 间 的 〈 方 向 ， 值 ) 对 ， 它 是 当 某 个 兴趣 在 整个 网 络 
中 扩散 时 建立 的 〈 见 图 19-7b) 。 方 向 是 数据 流动 的 方向 ， 值 是 应 用 特定 的 但 可 用 于 控制 流动 的 速率 。 
例如 ， 模 每 小 时 可 能 只 需要 一 定 次 数 的 动物 监测 数据 。 从 给 定 源 到 给 定 横 可 能 有 多 条 路 径 。 系 统 可 以 
采用 各 种 策略 来 进行 选择 ， 包 括 万 一 发 生 故 障 时 使 用 宛 余 的 路 径 ， 或 者 使 用 启发 式 算法 找到 一 条 最 短 
路 径 〈( 见 图 19-7e) 。 

应 用 程序 员 也 可 以 提供 称 为 过 滤器 (filter) 的 软件 ， 过 滤器 在 每 个 结 点 上 运行 ， 截 获 经 过 该 结 点 
的 匹配 的 数据 流 。 例 如 ， 过 滤器 可 以 压缩 重复 的 动物 监测 警报 ， 这 些 警 报 来 自 不 同 结 点 但 感知 到 的 是 
同一 动物 (可 能 是 图 19-7c 中 源 和 覃 之 间 的 结 点 ) 。 

另 一 种 用 于 传感器 网 络 编程 的 面向 数据 的 方法 是 分 布 式 查询 处 理 [Gehrke and Madden 2004] 。 在 
这 种 情况 下 ， 使 用 一 种 类 似 SQL 的 语言 来 声明 将 要 由 结 点 集体 执行 的 查询 。 考 虑 到 与 使 用 某 种 传感器 
结 点 有 关 的 所 有 已 知 开销 ， 最 优 的 查询 执行 计划 通常 是 在 用 户 PC 或 网 络 外 的 基站 上 处 理 。 考 虑 到 处 理 
查询 所 需 的 通信 模式 ， 基 站 沿 着 动态 发 现 路 径 将 经 过 优化 的 查询 分 发 到 网 络 中 的 结 点 ， 例 如 为 了 计算 
平均 数据 ， 需 要 将 数据 发 送 到 收集 结 点 。 与 定向 扩散 一 样 ， 数 据 能 在 网 络 中 育 集 以 分 担 通信 代价 。 结 
果 流 回 到 基站 ， 等 待 进一步 处 理 。 


19.4.3 ”位置 感知 


在 无 处 不 在 计算 使 用 的 各 种 类 型 的 感知 中 ,位 置 感知 是 最 受 关注 的 。 位 置 是 移动 和 上 下 文敏 感 计 
算 的 一 个 显然 的 参数 。 它 可 以 使 应 用 和 设备 很 自然 地 以 依赖 于 用 户 在 什么 地 方 的 方式 运转 ， 例 如 在 上 
下 文敏 感 的 手机 例子 中 。 但 位 置 感知 有 很 多 其 他 的 用 途 ， 从 帮助 用 户 在 城市 或 乡下 导航 到 根据 地 理 信 
息 决 定 网 络 路 由 [Imielinski and Navas 1999], 

位 置 感知 系统 用 于 得 到 实体 (包括 对 象 和 人 ) 在 某 种 感 兴趣 区 域内 的 位 置 的 数据 。 这 里 我 们 将 关 
注 实体 位 置 ， 然 而 利用 一 些 技术 也 可 以 得 到 实体 的 方位 值 或 更 多 信息 ， 例 如 它们 的 速度 。 

由 对 象 或 用 户 确定 自己 的 位 置 ,还 是 由 其 他 东西 确定 对 象 的 位 置 ， 这 两 者 有 很 大 的 区 别 ， 特 别 是 
谈 到 私密 性 时 更 为 重要 。 后 一 种 情况 称 为 跟踪 (tracking) 。 

图 19-8 (基于 [Hightower and Borriello 2001] 中 类 似 的 图 ) 显示 了 某 些 定位 技术 和 它们 的 主要 特 
性 。 其 中 的 一 个 特性 是 得 到 位 置 的 机 制 。 该 机 制 有 时 会 对 相关 技术 部 署 的 地 点 〈 例 如 技术 是 在 室内 还 
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是 室外 起 作用 ) 和 在 本 地 基础 设施 中 需要 的 装置 施加 限制 。 该 机 制 也 与 精确 度 有 关 ， 图 19-8 中 以 数量 
级 次 序 给 出 。 其 次 ,不 同 技术 产生 关于 对 象 位 置 的 不 同 数据 类 型 。 最 后 ， 技 术 在 给 要 定位 的 实体 提供 
的 信息 方面 有 区 别 ， 这 与 用 户 关心 的 私密 性 是 相关 的 。Hightower 和 Borriello 综述 了 其 他 一 些 技术 。 

















机 制 局 限 性 精确 度 位 置 数据 的 类 型 私密 性 | 
GPS 卫星 射频 源 的 多 点 定 室外 【卫星 可 见 ) 1~10m 绝对 物理 坐标 〈 纬 有 
位 法 度 ， 经 度 ， 高 度 ) 
无 线 电信 标 无 线 基 站 的 广播 〈 蜂 TAB ER 10m ~ 1km 接近 已 知 的 实体 有 
窝 ，802. 11 ， 蓝 牙 ) (通常 是 语义 上 的 ) 
活动 蝙蝠 无 线 电 和 超声 波 的 多 天 花 板 需要 安装 10cm 相对 (房间 ) 坐标 “暴露 蝙蝠 的 标识 
点 定位 法 传感器 
超 宽 带 无 线 电 脉冲 接收 的 多 要 安装 接收 器 15cm 相对 (房间 ) 坐标 “暴露 标签 的 标识 
点 定位 法 
活动 徽章 红外 传 感 日 光 或 荧光 房间 大 小 接近 已 知 的 实体 暴露 徽章 的 标识 
' (通常 是 语义 上 的 ) 
自动 识别 标签 RFID、 近 距离 通信 、 需要 安装 阅读 器 。 lem ~ 10m 接近 已 知 的 实体 暴露 标签 的 标识 
视觉 标签 〈 如 条 形 码 ) (通常 是 语义 上 的 ) 
Easy Livin AH, ZANE 要 安装 照相 机 不 定 的 相对 (房间 ) 坐标 无 | 








图 19-8 一 些 位 置 感知 技术 


美国 全 球 定位 系统 (CPS) 是 卫星 导航 系统 的 一 个 最 著名 的 实例 一 一 一 个 通过 卫星 信号 确定 接收 
器 或 装置 的 近似 位 置 的 系统 。 其 他 的 卫星 导航 系统 有 俄罗斯 的 GLONASS 系统 和 已 规划 的 欧洲 Galileo 
系统 。 由 于 在 建筑 物 内 信号 会 项 弱 ， 所 以 GPS 只 作用 于 室外 ， 它 通常 用 于 车 辆 和 手持 导航 设备 ， 并 且 
逐渐 用 于 非 传统 的 应 用 ， 例 如 在 城市 内 将 依赖 于 位 置 的 媒体 数据 传送 给 人 们 [Hul et al. 2004] 。 接 收 
者 的 位 置 是 根据 绕 地 球 6 个 平面 运行 的 24 颗 卫 星 的 一 个 子 集 计 算 的 ， 每 个 平面 4 显 。 每 颗 了 卫星 每 天 绕 
地 球 运行 2 圈 。 每 颗 卫星 广播 其 上 原子 钟 的 当前 时 间 ， 以 及 在 一 段 时 间 内 它 的 位 置信 息 〈 通 过 来 自 地 
面 站 的 观测 判断 ) 。 接 收 者 〈 它 的 位 置 将 被 确定 ) 根据 信号 被 接收 到 的 时 间 和 它 被 广播 的 时 间 的 差 值 
(也 就 是 信号 编码 的 时 间 ) 以 及 无 线 电 从 卫星 到 地 面 传播 的 速度 估计 来 计算 它 到 每 个 可 见 卫星 的 距离 。 
然后 ， 接 收 器 利用 称 为 “多 点 定位 法 ” (multilateration) 的 三 角 计 算 来 计算 它 的 位 置 。 要 得 到 一 个 位 
E, 那么 至 少 有 3 颗 卫 星 对 接收 者 是 可 见 的 。 如 果 刚 好 有 3 颗 卫 星 可 见 ， 那 么 接收 器 就 只 能 计算 出 它 
的 纬度 和 经 度 ; 若 有 更 多 可 见 了 卫星， 那么 高 度 也 可 以 计算 出 。 

另 一 种 可 能 在 广 域 范围 、 至 少 在 人 口 高 度 密 集 区 域 工作 的 定位 方法 是 ， 识 别 附 近 的 从 传输 范围 有 
限 的 固定 无 线 结 点 发 出 的 信 标 。 设 备 可 以 用 信和 号 强度 度量 哪个 信 标 是 最 近 的 。 移 动 电 话 的 蜂窝 基站 
(也 叫 蜂 窝 发 射 塔 ) 都 有 一 个 蜂窝 标识 符 ; 802.11 访问 点 有 一 个 基本 服务 集 标 识 符 〈Baise Service Set 
Idqentifier，BSSID ) 。 一 些 信 标 广播 标识 信息 ， 其 他 的 信 标 是 被 发 现 的 。 例 如 ,许多 802. 11 访问 点 广播 
它们 的 标识 符 ， 而 一 台 蓝 牙 设备 在 被 另 一 台 蓝 牙 设 备 发 现时 提供 它 的 标识 符 。 

无 线 电 信 标 自身 不 会 确定 一 个 实体 的 位 置 ， 仅 能 获得 它 与 另 一 个 实体 邻近 。 如 果 信 标的 位 置 已 知 ， 
那么 就 知道 且 标 实体 的 位 置 是 在 无 线 电 射 程 内 。 绝 对 定位 是 在 位 置 数据 库 中 查找 信和 标 标 识 符 。 电 信和 提 
供 商 一 般 不 会 直接 或 通过 第 三 方 公开 那些 用 到 其 发 射 塔 位 置 的 定位 信息 。 一 些 公司 ,例如 Google, 用 
车 辆 系统 化 地 搜索 一 个 区 域内 的 802. 11 访问 点 ， 他 们 把 这 些 点 用 GPS 定位 标记 到 地 图 上 。 一 个 智能 手 
机 在 这 样 一 个 地 图 化 的 访问 点 范围 内 ， 它 的 位 置 可 以 被 确定 在 儿 十 米 范 围 内 〈 假 设 访问 点 没有 被 重 定 
位 ， 有 时 会 发 生 这 样 的 情况 ) 。 

接近 度 本 身 就 是 一 个 有 用 的 属性 。 例 如 ， 使 用 接近 度 的 话 ， 可 能 创建 位 置 敏感 的 应 用 ， 该 应 用 在 
用 户 返 回 到 以 前 访问 过 的 位 置 时 触发 。 例 如 ， 在 火车 站 等 待 的 用 户 可 以 创建 一 个 警告 ， 当 他 在 每 月 的 
第 一 天 走 近 火 车 站 时 (也 就 是 说 ， 当 他 们 的 设备 接收 到 相同 的 信 标 标识 符 时 ) ， 提 柄 他 去 买 新 的 火车 
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月 票 。 蓝 牙 是 另 一 种 无 线 电 技术 ， 它 具有 一 个 有 趣 的 特征 ， 就 是 有 些 无 线 电 信 标 〈 例 如 ， 某 些 与 移动 
手机 集成 的 信 标 ) 本 身 是 移动 的 。 这 也 很 有 用 。 例 如 ， 火 车 乘客 会 通过 他 们 的 移动 手机 从 经 常 一 起 旅 
行 的 人 一 一 “熟悉 的 陌生 人 ”那里 接收 数据 。 

考虑 更 明确 的 定位 形式 ，GPS 得 到 室外 对 象 的 绝对 (也 就 是 全 球 ) 坐标 。 相 比 之 下 ， 活 动 蝙蝠 
(Active Bat) 系统 [Harter et al. 2002] 能 够 产生 对 象 或 人 在 室内 的 位 置 的 相对 坐标 ， 也 就 是 相对 于 该 
对 象 或 用 户 所 在 房间 的 位 置 得 到 的 坐标 〈 见 图 19-9) 。 活 动 蝙 蝠 系统 的 精确 度 大 约 是 10cm。 相 对 精确 
的 室内 位 置 对 某 些 应 用 而 言 是 有 用 的 ， 例 如 检测 用 户 距 离 哪 个 屏幕 最 近 ， 并且 使 用 VNC 协议 (参见 
2. 3.2 节 的 “ 瘦 客 户 实现 ”) PCH “WR” BARE. BA (bat) 是 附着 在 要 定位 的 
用 户 或 对 象 上 的 一 种 设备 ， 它 能 接收 无 线 电 信号 并 发 射 超声 波 信号 。 该 系统 依赖 位 于 天 花 板 已 知 位 
置 上 的 一 个 超声 波 接 收回 子 网 ， 该 子 网 通过 有 线 连 接连 到 一 个 基站 。 为 了 定位 蝙蝠 ， 基 站 向 蝙蝠 发 
射 一 个 包括 其 标识 符 的 无 线 电信 号 ， 同 时 向 安装 在 天 花 板 的 超声 波 接收 器 发 射 一 个 有 线 信号 。 当 带 
有 给 定 标 识 符 的 蝙蝠 接收 到 基站 的 信号 时 ， 它 发 射 一 个 短 的 超声 波 脉 冲 。 当 天 花 板 上 的 接收 器 接收 
到 基站 的 信号 时 ， 它 启动 一 个 计时 器 。 因 为 电磁 波 传播 的 速度 远 远大 于 声音 的 传播 速度 ， 所 以 超声 
波 脉冲 的 发 射 和 计时 器 的 启动 实际 上 是 同时 的 。 当 一 个 天 花 板 接收 器 接收 到 相应 的 〈 来 自 蝙蝠 ) 超 
声波 脉冲 时 ， 它 计算 间隔 的 时 间 ， 并 将 时 间 转 发 给 基站 ， 基 站 根据 对 声音 速度 的 一 个 估计 来 推断 接 
收 器 到 蝙蝠 的 距离 。 如 果 基 站 接收 到 至 少 三 个 非 共 线 超声 波 接收 器 的 距离 ， 它 就 能 计算 出 蝙蝠 在 三 
维 空间 的 位 置 。 








1 .基站 向 超声 波 接收 器 发 送 
~ ATS, FIRR 

‘sues ` 

[NA 4, 基站 根据 飞行 时 间 j 
abet mf . 和 时间 计 算 到 
行 的 时 间 u 超声 波 接收 器 的 距离 ， 这 
就 是 蝙 晤 的 位 置 
2. 活动 蝙蝠 一 接收 到 无 线 电 
信号 就 发 送 超声 波 信号 








图 19-9 在 房间 内 定位 一 个 活动 蝙 是 


超 宽 带 (Ultra Wide Band, UWB) 是 用 来 在 短程 内 (不 超过 10m) 以 高 比特 率 (100Mbps RES) 
传播 数据 的 技术 。 比 特 通过 低 功 耗 但 很 宽 的 频谱 ， 使 用 细 脉 冲 〈 宽度 为 Ins) 进行 传播 。 给 定 脉冲 的 
大 小 和 形状 ， 可 以 测量 脉冲 变化 的 次 数 从 而 得 到 很 高 的 精确 度 。 通 过 在 环境 中 放置 接收 器 和 使 用 多 点 
定位 法 ， 可 以 确定 一 个 UWB 标签 的 坐标 ， 其 精确 度 大 约 为 15cm。 与 其 他 技术 不 同 ，UWB 信号 可 以 穿 
过 墙壁 和 建筑 物 内 的 其 他 类 型 的 障碍 物 。 它 的 男 一 个 优点 是 功 耗 低 。 

一 些 研究 者 已 经 就 已 有 无 线 结 点 的 使 用 做 了 实验 ， 例 如 ，802. 11 无 线 访问 点 超越 简单 的 信 标 ， 试 
图 通过 度量 相对 于 几 个 访问 点 的 信号 强度 推理 无 线 客户 的 位 置 。 实 际 上 ， 环 境 中 其 他 实体 的 出 现 会 减 
弱 、 反 射 或 折射 信号 ， 这 意味 着 信号 强度 不 是 一 个 简单 的 与 发 射 机 距离 有 关 的 函数 。 处 理 这 个 间 题 的 
一 个 方法 是 指纹 技术 (fingerprinting) ， 它 根据 已 度量 的 信号 强度 特征 以 概率 的 方式 给 出 位 置 。 作 为 位 
置 实验 室 项 目的 一 部 分 ，Cheng 等 [2005] 考虑 了 一 些 根据 信号 强度 决定 位 置 的 技术 、 这 些 技术 能 获 
得 的 精度 和 所 涉及 的 校准 量 。 

前 述 技术 都 能 提供 对 象 的 物理 位 置 数据 : 在 物理 区 域 中 的 坐标 。 知 道 物理 位 置 的 一 个 好 处 是 ， 通 
过 地 理 信 息 系 统 〔GIS) 和 建筑 空间 的 世界 模型 数据 库 ， 一 个 位 置 能 与 对 象 的 很 多 其 他 类 型 的 信息 或 
其 他 对 象 相 联系 。 然 而 ， 不 利之 处 是 生成 和 维护 数据 库 所 需 的 开销 ， 这 些 数据 库 可 能 会 受制 于 很 高 的 
变化 率 。 

相 比 之 下 ,活动 徽章 系统 〔( 见 19. 1 节 ) 产生 对 象 的 语义 位 置 ; 位 置 的 名 字 或 描述 。 例 如 ， 如 果 一 
个 徽章 被 101 室 的 红外 线 接收 器 感知 到 ， 则 徽章 的 位 置 确定 为 “101 房间 ”。( 与 大 多 数 无 线 电信 号 不 
同 ， 建 筑 材 料 会 极 大 地 削弱 红外 线 信号 ， 所 以 徽章 不 可 能 在 房间 外 被 识别 。) 除了 在 空间 中 的 位 置 ， 该 
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数据 什么 也 没有 告诉 我 们 ， 但 是 它 确实 为 用 户 提供 了 与 他 们 居住 的 世界 相关 的 信息 。 相 对 而 言 ， 同 一 
地 点 的 纬度 和 经 度 ， 例 如 51°27.010N，002°37. 107W 可 以 用 于 计算 到 其 他 地 点 的 距离 ， 但 人 们 使 用 它 
(RE. HER, 无线 电信 标 〈 它 与 活动 徽章 截然 不 同 ， 它 将 接收 器 放置 在 将 要 定位 的 日 标 上 而 不 是 在 
基础 设施 上 ) 可 以 用 于 提供 语义 位 置 ， 或 是 物理 位 置 。 

活动 徽章 是 自动 标识 标签 (automatic identification tag) 的 一 种 特殊 形式 ， 自 动 标识 标签 是 电子 可 
读 的 标识 符 ， 它 通常 用 于 大 规模 工业 应 用 。 自 动 标识 标签 包括 RFID [Wan 2004]、 近 距离 通信 
(NFC) [www. nfc-forum. org] 标签 和 图 像 文字 或 其 他 可 视 符号 〈 如 条 形 码 ) ， 特 别 是 那些 设计 成 可 被 
远 处 的 照相 机 读 取 的 符号 (de Ipiña et al. 2002] 。 这 些 标记 附着 在 要 确定 位 置 的 对 象 上 。 当 在 被 作用 范 
围 有 限 且 位 置 已 知 的 阅读 器 发 现时 ， 目 标 对 象 的 位 置 也 就 可 知 了 。 

最 后 ， 计 算 机 视觉 技术 被 用 来 定位 一 个 对 象 ， 例 如 被 一 个 或 多 个 照相 机 观测 的 人 。Easy Living 项 
H [Krumm et al. 2000] 以 几 个 来 自 照相 机 的 输入 来 使 用 视觉 算法 。 一 个 目标 对 象 如 果 能 被 一 个 在 已 知 
位 置 的 照相 机 识别 ， 它 就 可 以 被 定位 。 原 则 上 ， 如 果 已 知 位 置 有 多 个 照相 机 ， 那 么 ， 所 摄 图 片上 对 象 
外 观 之 闻 的 区 别 可 以 用 来 更 准确 地 确定 对 象 的 物理 位 置 。 更 特殊 的 设备 组 合 了 可 见 光 摄像 和 红外 线 寻 
找 ， 它 可 以 用 来 确定 人 的 出 现 以 及 他 们 手 和 肢体 的 位 置 以 作为 游戏 的 手势 输入 。 

正如 在 Cooltown 实例 研究 ( 见 19.7.2 节 ) 中 将 要 说 明 的 ， 上 面 某 些 位 置 技术 〈 特 别 是 自动 标识 标 
签 和 红外 线 信 标 ) 通过 可 用 的 标识 符 ， 可 以 用 于 对 它们 所 依附 的 实体 的 信息 和 服务 进行 访问 。 

就 私密 性 而 言 ， 上 述 技术 如 何 比较 ? GPS 解决 方案 提供 了 绝对 的 私密 性 : GPS 操作 从 不 将 关于 接 
收 设备 的 信息 传送 到 其 他 地 方 。 无 线 电信 标 也 能 提供 绝对 的 私密 性 ， 但 它 依赖 于 它 被 使 用 的 方式 。 如 
果 设 备 只 是 监听 信 标 ， 并 且 从 不 与 基础 设施 进行 其 他 的 通信 ， 那 么 可 以 保证 它 的 私密 性 。 相 比 之 下 ， 
其 他 技术 展 于 跟踪 技术 。 活 动 蝙 蝠 、UWB、 活 动 徽章 和 自动 标识 方法 都 产生 一 个 属于 基础 设施 的 标识 
符 ， 表 示 在 已 知 的 地 点 、 已 知 的 时 间 出 更。 即使 相关 的 用 户 没有 公开 他 们 的 身份 ， 也 能 推断 出 来 。 最 
Ja, Easy Living 的 视觉 技术 依赖 于 识别 出 用 户 以 便 定 位 他 们 ， 所 以 用 户 的 身份 更 容易 暴露 。 

用 于 位 置 感知 的 体系 结构 “位置 系统 需要 的 两 个 主要 特征 是 : 1) 用 于 位 置 感知 的 各 种 传感器 的 类 
型 的 一 般 性 ; 2) 相对 于 要 定位 对 象 的 数目 以 及 当 对 象 (如 人 和 和 车辆) 移动 时 发 生 位 置 更 新 事件 速度 
的 可 伸缩 性 。 研 究 人 员 和 开发 人 员 为 小 范围 的 〈 在 单个 智能 空间 ， 例 如 覆盖 了 传感器 网 络 的 房间 、 建 
筑 物 或 自然 环境 ) 的 位 置 感知 设计 了 相应 的 体系 结构 ; 也 为 高 可 伸缩 地 理 信息 系统 开发 了 相应 的 体系 
结构 ， 这 些 系统 覆盖 广大 区 域 并 包含 大 量 对 象 的 位 置 。 

位 置 栈 〈]location stack) [Hightower et al. 2002, Craumann et al. 2003] 的 目标 是 满足 一 般 性 的 需求 。 
它 将 用 于 单个 智能 空间 的 位 置 感知 系统 分 成 若干 层 。 传 感 器 层 包 含 用 于 从 各 种 位 置 传感器 中 抽取 原始 
数据 的 豫 动 程序 。 测 量 屋 将 原始 数据 转化 为 常见 的 测量 类 型 (包括 距离 、 角 度 和 速度 ) 。 融 合 层 是 应 
用 程序 可 用 的 最 低层 。 它 结合 来 自 不 同 传感器 (通常 是 不 同类 型 的 ) 的 测量 数据 ， 从 而 推断 对 象 的 位 
置 ， 并 通过 一 个 统一 接口 提供 给 应 用 。 因 为 传感器 产生 不 确定 的 数据 ， 所 以 对 融合 层 的 推理 是 基于 概 
率 的 。Fox 等 [2003] 综述 了 一 些 可 用 的 贝 叶 斯 技术 。 安 排 层 推断 出 对 象 间 的 关系 ， 例 如 它们 是 否 是 
在 同一 位 置 。 以 上 诸 层 是 为 了 将 位 置 数据 与 来 自 其 他 类 型 传感器 的 数据 合并 ， 以 确定 较 复杂 的 上 下 文 
属性 ， 比 如 一 栋 房 子 中 的 一 群 人 是 否 全 部 睡 着 了 。 

可 伸缩 性 是 地 理 信息 系统 关心 的 一 个 主要 方面 。 诸 如 “最 近 60 天 内 谁 住 在 这 座 楼 内 ?”,“ 是 否 有 
人 跟着 我 ?” 或 者 “该 区 域内 哇 种 移动 对 象 最 容易 发 生 碰撞 ?” 都 是 时 空 查 询 ， 这 些 查 询 说 明了 对 可 伸 
缩 性 的 需求 。 要 定位 的 对 象 数目 (尤其 是 移动 对 象 的 数目 ) 和 并 发 查询 的 数量 可 能 很 大 。 此 外 ， 上 述 
查询 的 最 后 一 个 例子 要 求实 时 响应 。 使 位 置 系统 具有 可 伸缩 性 的 一 个 显然 的 方法 是 使 用 数据 结构 (如 
WLR) 递归 地 将 感 兴趣 的 区 域 分 成 子 区 域 。 时 空 数据 库 的 索引 技术 是 一 个 热门 研究 领域 。 


19.4.4 ”小 结 和 前 景 

本 节 描述 了 几 种 为 上 下 文敏 感 计算 而 设计 的 基础 设施 。 我 们 重点 讨论 了 如 何 利用 传感器 产生 应 用 
所 依赖 的 上 下 文 属 性 的 方法 。 我 们 介绍 了 用 于 相对 静态 传感器 集合 的 体系 结构 和 用 于 高 易 变 传感器 网 
络 的 体系 结构 。 最 后 ， 我 们 描述 了 一 些 位 置 感知 方面 特别 重要 的 实例 所 采用 的 技术 ， 有 些 技术 是 被 广 
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泛 使 用 的 。 万 维 网 联盟 (W3C) 的 地 理 位 置 API [www. w3. org XXIV] 包含 了 下 列 支 持 : (如 前 面 讨论 
的 ) 通过 移动 设备 使 用 GPS 或 接近 基站 发 射 塔 的 位 置 或 802. 11 访问 点 以 自动 感知 用 户 的 位 置 ， 给 用 户 
呈现 位 置 特定 的 Web 内容。 

通过 上 下 文敏 感 ， 我 们 将 日 常 物理 世界 与 计算 机 系统 集成 到 一 起 。 还 需要 解决 的 一 个 主要 问题 是 : 
与 人 类 对 物理 世界 的 细微 理解 相 比 ， 我 们 描述 的 系统 相当 粗糙 。 不 但 传感器 (至少 是 那些 足够 便宜 以 
至 能 广泛 部 署 的 ) 不 可 避免 地 不 够 精确 ， 而 且 从 原始 传感器 数据 所 包含 的 信息 中 精确 产生 语义 丰富 的 
信息 也 是 极其 困难 的 。 机 器 人 世界 〈 除 了 感知 ， 它 还 包括 制动器 ， 这 是 我 们 忽略 的 一 个 话题 ) 解决 该 
问题 已 经 好 多 年 了 。 在 严格 受 限 区 域内 ， 比 如 室内 吸尘器 清扫 或 工业 生产 ， 机 器 人 能 妥善 地 执行 任务 。 
但 是 从 受 限 领域 的 应 用 到 普遍 化 的 应 用 依然 是 很 困难 的 。 


19.5 安全 性 和 私密 性 


易 变 系 统 引 发 了 许多 新 的 安全 性 和 私密 性 问题 。 第 一 ， 易 变 系 统 的 用 户 和 管理 员 要 求 他 们 的 数据 
和 资源 具有 安全 性 (机 密 性 、 完 整 性 和 可 用 性 ) 。 但 是 ， 正 如 我 们 在 19. 1 节 描 述 易 变 系统 的 模型 时 所 
指出 的 ， 在 易 变 系统 中 ， 信 任 度 〈 所 有 安全 性 的 基础 ) 经 常 被 降低 。 这 是 因为 进行 自发 交互 的 组 件 的 
主体 只 有 很 少 的 关于 对 方 的 先 验 知识 ， 而 且 不 可 能 有 共同 的 可 信任 的 第 三 方 。 第 二 ， 很 多 用 户 关 心 他 

857) ” 们 的 私密 性 一 一 粗略 地 讲 ， 是 他 们 自己 控制 对 自身 信息 访问 的 能 力 。 但 是 由 于 在 智能 空间 中 能 感知 用 

户 经 过 ， 因 此 私密 性 比 以 前 更 可 能 受到 威胁 。 

尽管 存在 这 些 挑战 因素 ,但 确保 人 们 的 安全 性 和 私密 性 的 措施 必须 是 轻 量 级 的 一 一 部 分 是 为 了 保 
存 交互 的 自发 性 ， 部 分 是 由 于 很 多 设备 的 用 户 界面 是 受 限 的 。 例 如 ， 在 办 公 室 内 使 用 智能 笔 之 前 ， 人 
们 不 想 “ 登 录 ” 到 智能 笔 。 

本 节 我 们 将 概述 易 变 系统 的 安全 性 和 私密 性 的 几 个 主要 问题 。Stajano [2002] 给 出 了 这 些 问 题 的 
较 详 细 的 处 理 措 施 。Langheinrich [2001] 从 历史 的 和 法 律 的 角度 上 查看 了 无 处 不 在 计算 的 私密 性 
问题 。 


19.5.1 背景 


由 于 与 硬件 相关 的 问题 ， 如 资源 缺乏 ， 安 全 性 和 私密 性 在 易 变 系 统 中 是 很 复杂 的 ， 并 且 由 于 它们 
的 自发 性 导致 了 新 型 的 资源 共享 。 

硬件 相关 的 问题 “传统 的 安全 协议 往往 基于 对 设备 和 连通 性 的 假设 ,这 些 假 设 在 易 变 系统 中 是 不 
成 立 的 。 第 一 ， 便 携 设 备 〈 例 如 智能 手机 和 传感器 结 点 ) 通常 比 锁 在 房间 里 的 PC 类 的 设备 更 容易 被 
偷 和 受到 干扰 。 易 变 系 统 的 安全 性 设计 应 该 不 依赖 于 任何 容易 失效 的 设备 子 集 的 完整 性 。 例 如 ， 如 果 
一 个 智能 空间 跨越 了 一 个 足够 大 的 物理 区 域 ， 那 么 帮助 保护 系统 整体 完整 性 的 一 种 方法 是 : 如 果 攻 击 
要 成 功 ， 那 么 就 要 让 攻击 者 必须 在 大 约 同 一 时 间 访 问 它 内 部 的 许多 位 置 [Anderson et al. 2004] 。 

第 二 ， 易 变 系统 中 的 设备 有 时 没有 足够 的 计算 资源 用 于 非 对 称 〈 公 钥 ) 加 密 ， 即 使 使 用 椭圆 曲线 
加 密 也 是 如 此 〈 见 11.3.2 节 )。SPINS [Perrig et al. 2002] 为 无 线 传感器 网 络 中 的 低 功率 结 点 在 有 潜在 
攻击 的 环境 中 交换 数据 提供 了 安全 性 保证 。 他 们 的 协议 只 使 用 对 称 密 钥 加 密 ， 与 非 对 称 密 钥 加 密 不 同 ， 
它 在 那些 低 功率 的 设备 上 是 可 行 的 。 然 而 ， 它 回避 了 下 面 的 问题 : 无 线 传感器 网 络 中 的 哪些 结 点 应 该 
共享 相同 的 对 称 密 钥 。 一 种 极端 情况 是 ， 如 果 所 有 结 点 共享 相同 的 密 钥 ， 那 么 在 一 个 结 点 上 的 攻击 成 
功 将 危害 整个 系统 。 另 一 种 极端 情况 是 ， 如 果 每 个 结 点 与 其 他 每 个 结 点 分 享 一 个 不 同 的 密 铀 ， 那 么 将 
有 太 多 的 密 铀 要 保存 在 只 有 有 限 内 存 的 结 点 中 。 一 个 折 中 方案 是 结 点 只 与 距离 它 最 近 的 邻居 共享 密 钥 ， 
并 且 依赖 于 成 熟 的 可 信赖 结 点 链 ， 该 链 对 消息 按 跳 加 密 ， 而 不 是 使 用 端 对 端的 加 密 。 

第 三 ， 能 量 永远 是 个 问题 。 不 但 要 设计 安全 协议 使 得 尽量 减少 通信 和 负荷 以 延长 电池 的 使 用 时 间 ， 
而 且 有 限 的 能 量 是 新 型 服务 拒绝 攻击 的 基础 。Stajano 和 Anderson [1999] 描述 了 在 电池 供 能 的 结 点 上 
的 “睡眠 剥夺 折磨 攻击 ”: 攻击 者 可 以 通过 发 送 伪 造 的 消息 使 设备 耗 尽 它们 的 电能 ( 因为 设备 在 接收 
消息 时 要 消耗 能 量 ) ， 以 此 完成 拒绝 服务 的 攻击 。Martin 等 [2004] 描述 了 其 他 的 “睡眠 剥夺 ”攻击 ， 

[858] 包括 隐蔽 地 给 设备 提供 数据 和 代码 来 消耗 用 于 处 理 所 需 的 能 量 。 例 如 ， 攻 击 者 可 以 提供 一 个 动画 式 的 
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GIF 图 像 ， 对 用 户 而 言 ， 它 看 起 来 是 静态 的 ， 但 实际 上 需要 反复 演 染 。 
最 后 ， 断 链 操作 意味 着 最 好 不 要 使 用 依赖 于 持续 在 线 访 问 服务 器 的 安全 协议 。 例 如 ， 假 设 休息 站 
的 自动 售 货 机 只 为 某 公交 公司 的 乘客 提供 免费 的 点 心 和 饮料 。 与 其 假设 这 样 的 机 器 总 是 要 连接 到 公司 
的 总 部 来 验证 权限 ， 不 如 设计 出 一 个 协议 ， 给 用 户 设备 《如 手机 ) 发放 一 个 证 书 使 得 自动 售 货 机 仪 使 
用 蓝牙 或 其 他 短程 通信 手段 就 能 验证 权限 [Zhang and Kindberg 2002]. WE, AEA TER IRS AE 
也 意味 着 证 书 不 能 撤回 ， 只 能 设计 一 个 过 期 时 间 来 解决 这 个 问题 一 -这 回避 了 下 列 问题 : 离线 设备 如 
何 安全 地 保证 精确 的 时 间 。 
新 型 资源 共享 ; 问题 例子 ” 易 变 系统 引发 了 新 型 的 资源 共享 ， 这 需要 新 的 安全 性 设计 ， 如 下 面 的 
例子 所 示 : 
。 智能 空间 的 管理 者 暴 句 一 个 服务 ,使 得 访问 者 可 以 通过 无 线 网 络 访问 这 个 服务 ,例如 发 送 幻 灯 
片 到 会 议 室 的 投影 仪 或 使 用 咖啡 屋内 的 打印 机 。 
© 同一 公司 的 两 个 员工 在 会 议 上 遇见 时 ， 可 以 在 他 们 的 手机 或 其 他 便携 设备 之 间 通 过 无 线 连接 交 
换文 档 。 
。 护士 从 一 个 存放 类 似 设备 的 盒子 中 取出 一 个 无 线 心率 监控 器 ， 将 它 装 在 病人 身上 ， 并 且 将 它 关 
联 到 诊所 中 该 病人 的 数据 日 志 服务 上 。 
这 些 事例 都 是 自发 互 操作 例子 ， 每 个 例子 都 提出 了 安全 性 和 /或 私密 性 问题 。 它 们 与 在 有 防火 墙 保 
护 的 企业 内 部 网 或 者 开放 的 互联 网 上 的 资源 共享 模式 不 同 。 
投影 服务 和 打印 服务 只 能 由 访问 者 使 用 ， 但 无 线 网 络 可 能 越 出 建筑 物 的 边界 ， 这 样 攻击 者 可 以 窃 
听 、 和 干扰 展示 或 发 送 伪造 的 打印 任务 。 所 以 ， 服 务 需要 保护 ， 类 似 于 只 为 俱乐部 成 员 服务 的 Web 服务 
器 。 但 是 登录 〈 输 入 用 户 和 名 和 密码 ) 和 处 理 登录 的 注册 过 程 开 销 比 较 大 。 此 外 ， 用 户 可 能 会 出 于 私密 
性 考虑 而 反对 。 
两 个 员工 间 的 文档 交换 在 某 些 方面 类 似 于 在 公司 内 部 网 内 发 送 一 封 邮 件 。 这 种 交互 通过 一 个 公共 
的 无 线 网 络 发 生 在 一 个 几乎 充满 陌生 人 的 地 方 。 原 则 上 存在 可 信任 的 第 三 方 (员工 所 在 公司 )， 但 实 
际 上 第 三 方 可 能 不 可 达 (在 会 议 室 ， 员 工 的 手机 也 许 不 能 得 到 足够 好 的 无 线 电 通信 信号 ) 或 者 第 三 方 
可 能 没有 配置 在 所 有 用 户 的 设备 上 。 
护士 的 工作 在 某 些 方面 类 似 于 第 一 个 例子 ， 她 可 以 临时 但 安全 地 使 用 一 个 可 信任 的 设备 ， 就 像 访 
问 者 可 以 使 用 一 个 投影 仪 或 打印 机 。 但 是 这 个 例子 要 强调 的 是 重用 问题 。 可 能 有 很 多 的 无 线 传感器 在 
不 同 的 时 间 用 于 不 同 的 病人 ， 如 何 安全 地 在 设备 和 各 个 病人 日 志 间 建立 和 打破 关联 是 最 基本 的 问题 。 


19.5.2 “一些 解决 办 法 


为 了 解决 在 易 变 系 统 中 提供 安全 性 和 私密 性 的 问题 ， 我 们 现在 来 看 一 下 已 有 的 尝试 : 安全 自发 的 
设备 关联 、 基 于 位 置 的 认证 和 私密 性 保护 。 我 们 描述 的 安全 技术 很 明显 地 脱离 了 分 布 式 系统 的 标准 方 
法 。 它 们 利用 了 如 下 事实 : 我 们 考虑 的 系统 被 集成 到 了 日 常 的 物理 世界 中 ， 是 通过 使 用 物理 证 据 而 不 
用 密码 学 证 据 来 自 提升 安全 性 特性 。 

安全 自发 的 设备 关联 前 一 节 的 例子 提出 的 一 个 重要 问题 是 如 何在 通过 无 线 电网 络 W 相连 的 两 个 
设备 间 保 护 自发 关联 。 这 就 是 安全 自发 的 设备 关联 (secure spontaneous device association) 问题 ， 也 称 
为 安全 短暂 关联 (secure transient association) 问题 。 目 标 是 通过 在 两 个 设备 间 安 全 地 交换 会 话 密 钥 并 
使 用 该 密 钥 来 加 密 W 上 的 通信 来 创建 安全 通道 。 因 为 关联 是 自发 的 ， 所 以 首先 要 假设 设备 (REKHA 
户 ) 既 不 与 其 他 设备 共享 密 铀 ， 也 没有 其 他 设备 的 公 铀 ， 并 且 设 备 也 不 访问 可 信任 的 第 三 方 。 攻 击 者 
可 能 试图 在 允 上 窃听 、 重 播 或 合成 消息 。 特 别 是 攻击 者 可 能 试图 发 起 一 个 中 间 人 长 击 〈 相 关 描 述 见 
11.1.1 节 )。 

该 问题 的 解决 方法 能 够 使 访问 者 安全 连接 到 投影 仪 或 打印 服务 ; 参加 会 议 的 同事 能 够 安全 地 在 他 
们 的 携带 设备 间 交 换文 档 ; 护士 能 够 安全 地 通过 病床 将 无 线 心率 监控 器 连接 到 数据 日 志 装置 上 。 

W 上 的 通信 再 多 也 不 能 由 自身 完成 安全 密 铜 交换 ， 所 以 需要 紧急 通信 。 特 别 地 ， 在 以 蓝牙 连接 的 
两 个 设备 间 建 立 链 路 层 密 钥 的 标准 方法 依赖 于 一 个 或 多 个 用 户 的 紧急 控制 动作 。 在 一 个 设备 上 选择 的 
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数字 串 必 须 由 用 户 在 其 他 设备 上 输入 。 但 是 这 种 方法 通常 不 会 安全 地 实施 ， 因 为 可 能 被 使 用 的 、 简 单 
的 、 短 数字 串 〈 例 如 “0000”) 易于 被 攻击 者 通过 穷 举 搜索 而 得 到 。 

另 一 种 解决 安全 关联 问题 的 方法 是 使 用 带 有 某 一 物理 特性 的 侧 通道 。 特 别 地 ， 经 由 此 侧 通道 传播 
的 信号 在 角度 、 范 围 或 时 序 (或 它们 的 某 种 组 合 ) 上 会 受到 限制 。 为 了 尽 可 能 接近 ， 我 们 可 以 推断 出 
此 通道 上 消息 的 发 送 者 和 接收 者 的 特性 ， 这 使 得 我 们 能 够 使 用 一 种 物理 可 示范 的 设备 〈 我 们 下 面 将 介 
绍 ) 建立 安全 关联 。Kindberg 等 [2002b] 称 它们 为 物理 受 限 通道 (physically constrained channel) ， 我 
们 在 本 书 中 使 用 此 术语 ; Balfanz 等 [2002] 称 之 为 有 限 位 置 通道 。Stajano 和 Anderson [1999] 首先 以 
物理 接触 的 形式 开发 了 此 种 侧 通道 。 在 19. 2. 2 节 介 绍 物 理 设 备 关 联 的 时 候 ， 我 们 介绍 了 这 些 通道 的 几 
个 例子 。 

在 一 个 场景 中 ， 某 个 设备 生成 一 个 新 会 话 密 钥 ， 并 通过 接收 受 限 的 通道 (receive- constrained chan- 
nel) 将 它 发 送 到 其 他 设备 ， 接 收受 限 通道 提供 一 定 程 度 的 安全 性 。 也 就 是 说 ， 它 限制 哪些 设备 可 以 接 
收 密 钥 。 下 面 是 用 于 属于 接收 受 限 通道 的 一 些 技术 : 

。 物理 接触 。 每 个 设备 有 终端 来 进行 直接 电子 连接 [Stajano and Anderson 1999 ] ， 参 见 图 19-10, 
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a) 通过 物理 接触 交换 新 会 话 密 钥 K b) 在 W 上 使 用 K 构 建安 全 通道 的 设备 通信 
图 19-10 使 用 物理 接触 的 安全 设备 关联 


红外 线 。 可 以 限制 红外 线 光 束 在 60° 以 内 ， 它 可 以 被 墙壁 和 窗户 大 大 地 削弱 。 用 户 可 以 通过 
“光束 ”传送 密 钥 给 相距 1 米 以 内 的 接收 设备 [Balfanz et al. 2002] 。 

。 音频 。 数 据 可 以 作为 一 种 音频 信号 (例如 在 房间 内 轻柔 地 播放 的 音乐 ) 的 调制 传送 , 但 它 传 
送 的 距离 很 短 [Madhavapeddy et al. 2003], 

激光 。 一 个 用 户 将 设备 的 携带 数据 的 罕 激 光束 指向 另 一 个 设备 上 的 接收 器 来 传送 数据 [Kind- 
berg and Zhang 2003a] 。 该 方法 具有 比 其 他 远程 技术 具有 更 高 的 精确 度 。 

条 形 码 和 照相 机 。 一 个 设备 在 它 的 屏幕 上 将 密 钥 显示 成 条 形 码 (或 其 他 可 解码 的 图 像 ) ， 另 一 
个 设备 〈 带 有 摄像 头 ， 比 如 拍照 手机 ) 读 取 并 人 解码。 该 方法 的 精确 度 与 设备 间 的 距离 成 反比 。 

通常 ， 物 理 上 受 限 的 通道 只 提供 有 限 的 安全 性 。 具 有 高 灵敏度 接 收 器 的 攻击 者 就 能 窃听 红外 线 或 
音频 ; 具有 功能 强大 的 照相 机 的 攻击 者 能 够 读 取 (即使 在 小 屏幕 上 ) 。 激 光 会 受 大 气 散射 的 限制 ， 尽 
管 量子 调制 技术 可 以 使 得 发 散 的 信和 号 对 窃听 者 没有 用 处 [Gibson et al. 2004 ] 。 然 而 ， 当 技术 部 署 在 合 
适 的 环境 中 时 ， 攻 击 者 就 需要 付出 极 大 的 努力 才能 完成 攻击 ， 这 样 的 安全 性 足以 满足 日 常 工作 的 需要 。 

第 二 种 用 于 安全 交换 会 话 密 钥 的 方法 是 使 用 受 限 通道 在 物理 上 认证 设备 的 公 钥 ， 并 将 它 发 送 给 其 
他 设备 。 之 后 设备 参与 到 一 个 标准 协议 中 ， 使 用 认证 的 公 钥 以 交换 会 话 密 钢 。 当 然 ， 该 方法 假定 设备 
功能 足够 强大 ， 可 以 执行 公 钥 加 密 。 

对 于 设备 而 言 ， 认 证 公 钥 最 简单 的 方法 是 将 它 通 过 一 个 发 送 受 限 通道 (send- constrained channel) 
发 送出 去 ， 这 使 用 户 能 够 认证 密 钥 是 从 那个 物理 设备 中 得 到 的 。 有 几 种 方法 实现 合适 的 发 送 受 限 通道 。 
例如 ， 物 理 接触 提供 了 一 个 发 送 受 限 通道 ， 因 为 只 有 一 个 直接 连接 的 设备 可 以 在 该 通道 上 发 送 。 习 题 
19. 14 将 请 读者 考虑 以 上 描述 的 哪些 接收 受 限 通道 技术 也 提供 发 送 受 限 通道 。 此 外 ， 使 用 一 个 接收 受 
限 通道 实现 一 个 发 送 受 限 通道 是 可 能 的 ， 反 之 亦 然 (参见 习题 19. 15 ) 。 

对 于 设备 而 言 ， 第 三 种 利用 物理 受 限 通道 的 方法 是 最 优化 地 但 不 安全 地 交换 会 话 密 铀 ， 之 后 使 用 
物理 受 限 通道 来 验证 密 钥 。 也 就 是 说 ， 使 用 物理 受 限 通 道 来 证 实 密 钥 只 由 所 请 求 的 物理 源 拥有 。 

首先 ， 我 们 考虑 如 何 用 自发 但 可 能 与 错误 的 主体 交换 会 话 密 钥 ， 随 后 介绍 几 种 技术 来 验证 交换 。 
如 果 验 证 失败 ， 那 么 过 程 还 可 以 重复 。 l 
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在 19.2.2 节 中 ,我 们 描述 了 用 于 关联 两 个 设备 的 物理 的 和 由 人 控制 的 技术 。 例 如 ， 两 按钮 协议 ， 
当 人 几乎 同时 按 下 设备 上 的 按钮 时 ,设备 交换 它们 的 网 络 地 址 。 可 以 方便 地 修改 协议 ,使 得 设备 使 用 
Diffie- Hellman 协议 [Diffie and Hellman 1976] 交换 会 话 密 钥 , 但 是 ,该 方法 正如 它 自 己 叙述 的 ， 是 不 
安全 的 : 由 于 同时 运行 该 协议 ,单独 的 用 户 组 仍 有 可 能 意外 地 错误 关联 设备 ， 并 且 怀 有 恶意 的 一 方 仍 
有 可 能 发 起 中 间 人 攻击 。 

中 间 人 不 能 〈 除 了 有 可 忽略 的 概率 ) 同 每 个 设备 交换 相同 的 密 钥 ， 这 是 Diffie-Hellman 协议 的 一 个 
特性 。 所 以 ， 我 们 可 以 通过 比较 两 个 设备 运行 Diffie- Hellman 协议 后 得 到 的 密 钥 的 安全 散 列 值 来 验证 关 
联 ( 见 图 19-11) 。 以 下 技术 使 得 我 们 在 使 用 前 验证 密 钥 。 尽 管 也 使 用 接收 受 限 通道 ， 但 它们 涉及 发 送 
受 限 通道 (见习 题 19. 15 ) 。 


2. 用 户 比较 显示 在 设备 上 的 密 钥 的 散 列 值 一 一 通过 
视觉 或 者 一 个 综合 的 成 像 设备 。 由 于 它们 不 一 致 ， 
, oo 用 户 断 定 有 中 间 人 ， 或 者 意外 地 发 生 了 错误 关联 





1. 通过 Diffie-Hellman 
协议 交换 密 钥 





| enna 
设备 显示 密 钥 的 散 列 值 
图 19-11 检测 中 间 人 


显示 的 散 列 值 ，Stajano 和 Anderson [1999] 指出 ， 每 种 设备 都 可 以 以 十 六 进 制 字符 或 其 他 人 工 可 
以 比较 的 形式 显示 它 的 公 钥 的 散 列 值 。 然 而 ， 他 们 认为 这 类 人 为 参与 太 容易 出 错 。 上 面 提 到 的 条 形 码 
方法 可 能 更 可 靠 。 该 方法 是 使 用 发 送 受 限 通道 的 另 一 个 例子 : 一 个 设备 的 显示 屏 和 接近 条 形 码 的 另 一 
个 设备 的 摄像 头 间 的 光路 安全 地 从 所 请 求 的 设备 传播 安全 散 列 值 。 

超声 波 : 通过 使 用 类 似 于 19.4.3 节 描 述 的 活动 蝙蝠 系统 使 用 的 技术 ， 将 超声 波 信和 号 与 无 线 电信 和 号 
结合 ， 可 以 推断 发 送 散 列 值 的 设备 的 距离 和 方向 [Kindberg and Zhang 2003b] 。 

由 于 受 限 通道 的 特性 ， 以 上 方法 提供 的 安全 性 的 程度 是 不 同 的 ， 但 是 所 有 方法 都 适合 于 自发 关联 。 
没有 一 个 方法 要 求 在 线 访 问 其 他 组 件 。 没 有 一 个 方法 要 求 用 户 去 认证 他 们 自己 或 查找 设备 的 电子 名 称 
或 标识 符 ， 相 反 ， 要 向 用 户 提供 关于 哪个 设备 已 安全 关联 的 物理 证 据 。 通 过 假设 ， 用 户 已 在 那些 设备 
(和 它们 的 用 户 ) 中 建立 了 信任 。 当 然 ， 已 获得 的 安全 性 只 是 同 所 涉及 设备 的 可 信任 性 一 样 : 可 能 将 
一 个 设备 “安全 地 关联 ”到 另 一 个 实际 上 发 起 攻击 的 设备 上 。 

Stajano 和 Aderson [1999 Stajano 2002] 在 “复活 鸭 ” 协 议 的 上 下 文中 使 用 了 物理 受 限 通道 。 该 
协议 与 无 线 心率 监控 器 的 例子 是 相关 的 ， 在 那个 例子 中 ， 几 个 同样 的 设备 要 在 病人 间 安 全 地 关联 或 重 
新 关联 。 该 协议 的 名 字 指 下 面 的 事实 : 〈 实 际 的 ) 小 鸭 在 可 铭记 的 状态 下 开始 生命 ， 随 后 受 控 于 任何 
它们 首先 认 出 的 实体 (理想 情况 下 ， 是 它们 的 母亲 !) ， 该 过 程 称 为 铭记 (imprinting) 。 在 我 们 的 实例 
中 ,“ 小 鸭 ” 设 备 受 控 于 第 一 个 与 它 关 联 的 设备 ， 并 且 之 后 拒绝 来 自任 何其 他 实体 的 请 求 一 一 其 他 实 
体 是 指 不 知道 在 铭记 点 “小 鸭 ” 与 它 的 “母亲 ”交换 密 钥 的 主体 。 重 新 关联 只 能 通过 先 “ 杀 死 该 鸭 的 
灵魂 ”来 进行 一 一 例如 ， 当 “母亲 ”指示 “了 鸭 ” 重 新 呈现 可 铭记 的 状态 ， 该 情况 下 它 的 记忆 被 安全 地 
氛 除 了 。 从 这 一 点 开始 ,“ 小 风 ” 准 备 受 控 于 下 一 个 与 它 关 联 的 设备 。 

基于 位 置 的 认证 ”访问 者 使 用 会 议 室 的 投影 服务 以 及 用 户 在 获 啡 店 打印 文档 的 例子 可 以 从 访问 者 
和 管理 者 两 个 角度 来 看 。 从 访问 者 的 角度 看 ， 他 们 可 以 使 用 前 面 介绍 的 任 一 种 物理 受 限 通道 安全 地 将 
他 们 的 设备 关联 到 投影 仪 或 打印 机 上 ， 从 而 保护 他 们 的 数据 的 私密 性 和 完整 性 (尽管 在 咖啡 店内 打印 
敏感 的 文档 是 不 明智 的 ) 。 

但 是 那些 智能 空间 的 每 个 管理 者 都 有 附加 的 需求 : 在 让 他 们 的 访问 者 享有 安全 性 的 同时 ， 他 们 需 
要 实现 访问 控制 。 只 有 物理 上 位 于 他 们 空间 内 的 人 会 议 室 的 讲演 者 ， 在 咖啡 店 喝 喇 啡 的 人 ) 才能 使 
用 他 们 的 服务 。 可 是 ， 正 如 我 们 已 经 解释 过 的 ， 由 于 访问 者 私密 性 的 需求 和 管理 者 对 自发 出 现 和 消失 
的 用 户 和 设备 集成 一 体 的 需要 ， 认 证 用 户 的 身份 可 能 是 不 合适 的 。 


514 + 第 19 章 移动 和 无 处 不 在 计算 


满足 那些 需求 的 一 种 认证 方法 是 使 访问 控制 基于 服务 的 客户 的 位 置 ， 而 不 是 它们 的 身份 。Kindberg 
等 [2002b] 描述 了 一 种 认证 客户 位 置 的 协议 ， 该 协议 使 用 一 种 遍及 但 不 会 超越 智能 空间 的 物理 受 限 
通道 。 例 如 ， 该 通道 可 以 使 用 咖啡 店内 播放 的 音乐 或 会 议 室 内 的 红外 线 来 构建 。 还 有 一 个 嵌 人 相应 智 
能 空间 〈 即 直接 连接 到 同一 个 受 限 通道 ) 的 、 被 位 置 特定 的 服务 所 信任 的 位 置 认 证 代理 。 例 如 ，Acme 
咖啡 公司 想 通 过 它们 的 连锁 店 让 它们 的 客户 免费 下 载 多 媒体 信息 作为 奖励 ， 但 是 又 希望 保证 Acme Of 
啡 店 外 的 任何 人 都 不 可 以 访问 该 多 媒体 信息 ， 即 使 下 载 服务 是 集中 式 的 并 且 连 接 到 互联 网 。 该 协议 假 
定 用 户 通 过 Web 浏览 器 访问 服务 ， 协 议 使 用 Web 重 定 向 ， 这 样 访问 者 的 设备 从 位 置 认 证 代理 透明 地 得 
到 证 实 ， 即 客户 设备 位 于 它 所 声明 的 位 置 ， 然 后 ， 该 协议 负责 将 该 证 明 转 发 给 目标 服务 。 

Sastry [2003] 使 用 由 超声 波 实现 的 临时 受 限 通道 验证 位 置 声明 。 该 协议 的 基础 是 ， 因 为 声波 
的 速度 是 物理 受 限 的 ， 在 应 答 包 含 在 请 求 包 中 的 随机 数 时 ， 只 有 一 个 恰好 声明 在 此 的 设备 可 以 通过 超 
声波 足够 快 地 传送 消息 到 目的 地 。 . 

与 安全 的 设备 关联 一 样 ， 位 置 认证 只 能 在 有 限 的 程度 上 保护 系统 的 安全 。 即 使 服务 已 证 实 客户 在 
一 个 真实 的 位 置 ， 该 客户 也 可 能 仍然 是 恶意 的 或 者 作为 其 他 位 置 客户 的 代理 。 

私密 性 保护 ”基于 位 置 的 认证 表明 权衡 使 得 保护 易 变 系 统 的 私密 性 变 得 很 难 ， 即使 用 户 拒绝 提供 
他 们 的 身份 ， 他 们 也 会 暴露 位 置 ， 该 位 置 可 能 与 其 他 类 型 的 潜在 标识 信息 无 意 地 进行 了 关联 。 用 户 信 
息 可 能 流 经 的 所 有 通道 都 需要 安全 措施 。 例 如 ， 即 使 用 户 在 嘻 啡 店 匿 名 地 访问 电子 服务 ， 他 们 的 私密 
性 也 可 能 被 破坏 〈 如 果 照 相机 捕捉 到 他 们 ) 。 如 果 用 户 需 要 为 一 项 服务 支付 费用 ， 那 么 即使 通过 第 三 
方 来 完成 这 项 工作 ， 他 们 也 必须 提供 电子 支付 细节 。 他 们 也 可 能 要 购买 货物 ， 那 些 货物 需要 运送 到 他 
们 家 或 工作 地 址 。 

在 系统 层 中 ， 最 基本 的 威胁 是 ， 当 用 户 走 进 智能 空间 并 访问 其 中 的 服务 时 ， 用 户 会 有 意 地 或 无 意 
地 提供 各 种 各 样 的 标识 符 。 第 一 ， 他 们 在 访问 服务 时 可 能 提供 名 字 和 地 址 。 第 二 ， 他 们 个 人 设备 上 的 
蓝牙 或 EEE 802. 11 网 络 接口 都 有 一 个 固定 的 MAC 层 地 址 ， 该 地 址 对 其 他 设备 (如 访问 点 ) 是 可 见 
的 。 第 三 ， 如 果 用 户 携 带 标签 ， 如 RFD 标签 (例如 ， 嵌 人 到 衣服 中 的 RFID 标签 使 智能 洗衣 机 能 够 自 
动 地 选择 一 种 合适 的 洗衣 周期 )， 那 么 智能 空间 可 以 潜在 地 在 门口 和 其 他 “关键 点 ”感知 那些 标签 。 
RFID 是 全 球 唯一 的 ， 可 以 用 于 识别 用 户 的 什么 物品 带 有 该 标签 (如 他 们 穿 的 衣服 类 型 )， 还 可 以 用 于 
跟踪 。 

无 论 标 识 符 的 来 源 是 什么 ， 它 们 都 可 以 与 一 个 位 置 和 在 给 定时 间 内 的 一 个 活动 相关 联 ， 这 样 就 可 
能 被 潜在 地 连接 到 用 户 的 个 人 信息 。 在 智能 空间 中 的 用 户 可 能 窃听 并 收集 标识 符 。 如 果 他 们 与 智能 空 
H (或 授信 到 智能 空间 的 服务 ) 串通 ， 那 么 他 们 就 可 以 跟踪 标识 符 ， 推 断 出 用 户 的 活动 ， 所 有 这 些 都 
有 可 能 导致 私密 性 的 丧失 。 

科学 家 们 正在 研究 如 何 把 当前 的 “ 硬 ” 标 识 符 (如 无 线 MAC 地 址 和 RFID) 做 成 “ 软 ” 地 址 ， 这 
些 软 地 址 可 以 时 不 时 被 替换 以 阻止 追踪 。 疏 变 MAC 地 址 (和 更 高 层 的 网 络 地 址 ， 如 IP 地址 ) 的 困难 
在 于 会 导致 通信 中 断 ， 这 就 要 与 私密 性 进行 权衡 [ Gruteser and Grunwald 2003], 。 改 变 RFID 的 困难 在 
F., BAER RFD 的 用 户 不 想 被 “错误 ”的 传感器 跟踪 ， 但 用 户 希望 他 们 的 REID 标签 被 某 些 “ 正 
确 ”的 传感器 读 取 〈 如 他 们 洗衣 机 内 的 传感器 ) 。 解 决 该 问题 的 技术 是 对 于 标签 使 用 ( 单 向 ) 散 列 函 
数 ， 蔡 换 已 存储 的 标识 符 和 生成 在 每 次 读 取 标 识 符 后 要 发 出 的 标识 符 [Ohkubo et al. 2003 ] 。 只 有 一 个 
知道 标签 原始 唯一 标识 符 的 可 信赖 方 能 够 使 用 发 出 的 标识 符 来 证 实 哪个 标签 被 读 取 。 此 外 ， 因 为 标签 
通过 一 个 单 向 散 列 函 数 在 发 出 它们 前 改变 它们 存储 的 标识 符 ， 所 以 攻击 者 不 能 (除非 他 们 段 改 了 标 
签 ) 知道 所 存储 的 标识 符 ， 这 样 ， 也 就 不 能 欺骗 标签 一 一 例如 ， 故 意 错误 地 声称 一 个 带 标签 的 用 户 出 
现在 犯罪 现场 。 

考虑 客户 提供 给 服务 的 软件 标识 符 ， 帮 助 维护 私密 性 的 一 种 显而易见 的 方法 是 要 么 用 一 个 匿名 标 
识 符 (为 每 个 服务 请 求 随 机 送 择 的 ) 要 么 用 一 个 假名 (pseudonym) 来 替代 。 假 名 是 一 个 不 真实 的 标 
FR, 但 是 在 一 段 时 间 内 一 直 用 于 同一 个 客户 主体 。 假 名 相对 于 匿名 标识 符 的 优势 是 它 使 客户 不 必 暴 
露 真 实 身份 就 可 与 给 定 服务 建立 一 种 信任 的 关系 或 好 名 声 。 

对 于 用 户 来 说 ， 管 理 匿 名 或 假名 标识 符 太 麻烦 ， 所 以 这 项 工作 通常 由 一 个 称 为 私密 性 代理 privacy 
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proxy) 的 系统 组 件 完成 。 私 密 性 代理 是 一 个 用 户 信 任 的 可 以 将 所 有 服务 请 求 都 匿名 发 送 的 组 件 。 每 个 
用 户 设备 有 一 个 到 私密 性 代理 的 安全 的 专用 通道 。 该 代理 将 服务 请 求 中 所 有 的 真实 标识 符 用 匿名 标识 
符 或 假名 替换 。 

私密 性 代理 的 一 个 问题 是 它 是 脆弱 性 的 中 心 点 : 如 果 代理 被 成 功 攻击 ， 那 么 所 有 的 客户 使 用 服务 
的 信息 将 被 泄露 。 另 一 个 问题 是 代理 不 会 隐藏 用 户 访问 了 哪个 服务 。 一 个 窃听 者 或 一 群 窍 听 者 可 以 使 
用 流量 分 析 ， 即 观察 流向 或 流出 一 个 特定 用 户 设备 的 消息 和 流向 或 流出 一 个 特定 服务 的 消息 间 的 流量 
的 相关 性 ， 检 查 消息 的 时 序 和 大 小 等 因素 。 

RA (mixing) 是 一 种 统计 技术 ， 它 以 一 种 攻击 者 很 难 整理 出 用 户 的 动作 规律 的 方式 ， 组 合 来 自 
许多 用 户 的 通信 ， 从 而 帮助 维护 用 户 的 私密 性 。 混 合 的 一 个 应 用 是 构建 代理 的 一 个 覆盖 网 络 ， 在 消息 
进入 网 络 以 后 ， 代 理 对 消息 加 密 、 聚 集 、 重 排 以 及 在 它们 之 间 使 用 多 跳 传送 消息 ， 从 而 对 服务 或 客户 
而 言 ， 很 难 在 来 自 客 户 或 服务 的 进入 网 络 的 消息 和 离开 网 络 的 消息 间 建 立 联系 [ Chaum 1981 ] 。 每 个 
代理 只 信任 它 的 邻居 ， 且 只 与 它们 共享 密 钢 。 只 要 不 是 所 有 代理 的 串通 ， 就 很 难 危害 到 网 络 。Al- Mu- 
htadi 等 [2002] 描述 了 一 种 用 于 在 智能 空间 中 将 客户 的 消息 匿名 地 路 由 到 服务 的 体系 结构 。 

混合 的 另 一 种 应 用 是 利用 在 每 个 位 置 出 现 许多 用 户 来 隐藏 用 户 的 位 置 。Beresford 和 Stajano [2003 ] 
描述 了 一 种 使 用 混合 地 带 (mix zone) 隐藏 用 户 位 置 的 系统 ， 混 合 地 带 是 一 个 用 户 不 会 访问 位 置 敏感 
服务 的 区 域 ， 例 如 智能 房间 之 间 的 走廊 。 其 基本 思想 是 用 户 在 混合 地 带 内 改变 他 的 假名 标识 符 ， 在 那 
里 任何 用 户 的 位 置信 息 是 不 知道 的 。 如 果 混 合 地 带 足 够 小 并 且 有 足够 多 的 人 经 过 混合 地 带 ， 那 么 混合 
地 带 可 以 扮演 一 个 类 似 于 混合 的 匿名 代理 网 络 的 角色 。 习 题 19. 16 在 更 深层 次 上 考虑 了 混合 地 带 。 


19.5.3 “小结 和 前 景 


本 节 介 绍 了 在 易 变 系统 中 提供 安全 性 和 私密 性 的 问题 ， 并 简要 介绍 了 几 种 尝试 性 的 解决 方案 ， 包 
括 安 全 自发 关联 、 基 于 位 置 的 认证 和 各 种 保护 私密 性 的 技术 。 广 泛 的 感知 、 与 硬件 有 关 的 问题 〈( 如 资 
WRZ) 和 自发 关联 是 产生 困难 的 根源 。 感 知 增加 了 用 户 对 私密 性 的 关注 ， 因 为 不 但 他 们 的 服务 访问 
被 监控 ， 而 且 他 们 的 位 置 等 基本 信息 也 被 监控 ; 与 硬件 有 关 的 问题 和 自发 性 对 我 们 提供 安全 方案 的 能 
力 提出 了 挑战 。 这 是 一 个 重要 的 研究 领域 : 安全 性 ， 尤 其 是 私密 性 可 能 成 为 使 用 易 变 系统 的 障碍 。 


19.6 自 适 应 


本 章 所 研究 的 易 变 系统 的 设备 在 处 理 能 力 、Z0 能 力 〈 例 如 屏幕 大 小 、 网 络 带宽 、 内 存 和 能 量 容 
量 ) 方面 与 PC 相 比 ， 异 构 性 更 加 明显 。 由 于 我 们 为 设备 设 定 了 多 个 目标 ， 所 以 异 构 性 不 太 可 能 大 大 
BS, 便携 和 嵌入 设备 的 不 同 要 求 意 味 着 资源 《例如 能 量 和 屏幕 大 小 ) 最 缺乏 和 最 丰富 的 设备 之 间 有 
着 巨大 的 差别 (在 资源 上 仅 有 的 正面 总 体 趋势 是 逐渐 增 容 的 但 是 可 负担 得 起 的 持久 存储 [Want and 
Pering 2003] ) 。 可 能 唯一 不 变 的 就 是 运行 时 变化 本 身 : 运行 条 件 〈 如 可 用 的 带宽 和 能 量 ) 是 易于 动态 
变化 的 。 

本 节 介 绍 自 适应 (adaptive) AR: 它们 基于 不 同 的 资源 模型 ， 并 且 使 它们 的 运行 时 行为 适应 当时 
的 资源 可 用 性 。 自 适应 系统 的 目标 是 通过 允许 软件 在 上 下 文中 重用 以 容纳 异 构 〈 这 里 ， 上 下 文 会 根据 
一 些 因素 变化 ， 这 些 因 素 包括 设备 功能 和 用 户 偏好 ) ; 同时 ， 通 过 适应 应 用 行为 但 不 牺牲 关键 的 应 用 特 
性 来 容纳 变化 的 运行 时 资源 条 件 。 但 是 ， 实 现 这 些 目标 是 极其 困难 的 。 本 节 给 出 了 自 适应 领域 的 一 些 
特点 。 


19.6.1 内 容 的 上 下 文敏 感 自 适应 


在 19. 3. 1 节 ， 我 们 看 到 易 变 系统 的 某 些 设备 相互 提供 多 媒体 内 容 。 多 媒体 应 用 〈 见 第 20 章 ) 通 
过 交换 或 传输 多 媒体 数据 (例如 图 像 、 音 频 和 视频 ) 而 运作 。 

交换 内 容 的 一 种 简单 办 法 是 ,不 管 何 种 内 容 消费 设备 ， 内 容 产 生 者 都 发 送 相 同 的 内 容 ， 而 内 容 消 
费 设 备 根据 它 的 需要 和 限制 对 内 容 进 行 适当 的 呈现 。 确 实 ， 该 方法 有 时 在 效 ， 只 要 内 容 被 指定 得 足够 
抽象 ， 接 收 设备 总 能 找到 一 个 适合 它 需 要 的 具体 表现 方法 。 
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然而 ,一 些 因素 (如 带宽 限制 和 设备 异 构 ) 使 得 该 方法 通常 不 可 行 。 与 PC 不 同 ， 易 变 系统 的 设 
备 接收 、 处 理 、 存 储 和 显示 多 媒体 内 容 的 能 力 差 别 非常 大 。 它 们 的 屏幕 大 小 不 同 ， 有 的 甚至 没有 屏幕 ， 
所 以 会 导致 在 发 送 固定 大 小 的 图 片 、 固 定 字 体 大 小 的 文本 ， 以 及 固定 布局 的 内 容 时 得 到 不 满意 的 结果 。 
设备 可 能 有 也 可 能 没有 PC 所 应 有 的 其 他 类 型 的 VO: 键盘 、 麦 克 风 、 音 频 输 出 设备 等 。 即 使 一 个 设备 
有 IO 硬件 来 呈现 某 种 形式 的 内 容 ( 如 视频 ) ， 它 也 可 能 没有 某 种 编码 (例如 MPEG 或 QuickTime) 所 
需 的 软件 或 者 没有 足够 的 内 存 及 处 理 资 源 来 以 完全 的 保 真 度 〈 对 视频 信和 号 而 言 指 全 分 辩 率 或 帧 率 ) 及 
现 多 媒体 。 最 后 ， 设 备 可 能 具有 足够 的 资源 来 呈现 给 定 的 内 容 ， 但 是 如 果 设 备 的 带宽 太 低 ， 内 容 就 不 
能 发 送 到 设备 〈 除 非 内 容 被 适当 地 压缩 ) 。 
更 普遍 的 情况 是 ， 一 个 服务 需要 传送 到 给 定 设备 的 内 容 是 上 下 文 的 一 个 函数 : 媒体 制作 人 不 但 应 
该 考虑 消费 设备 的 能 力 ， 还 要 考虑 设备 用 户 的 偏好 ， 以 及 用 户 任 务 的 本 质 等 因素 。 例 如 ， 一 个 用 户 可 
能 更 希望 在 小 屏幕 上 显示 文本 而 不 是 图 像 ; 另 一 个 用 户 更 喜欢 音频 输出 而 不 是 视频 输出 。 此 外 ， 服 务 
传递 的 在 一 段 内 容 中 的 条 目 可 能 是 用 户 任务 的 一 个 函数 。 例 如 ， 某 一 区 域 的 地 图 上 的 特征 依赖 于 用 户 
是 参观 景点 的 旅游 者 还 是 寻找 基础 设施 访问 点 的 工作 者 而 确定 【 Chalmers et al. 2004 ] 。 在 一 个 屏幕 大 
小 有 限 的 设备 上 ， 如 果 地 图 只 包括 一 种 特征 类 型 ， 那 么 该 地 图 就 比较 易 读 了 。 
对 多 媒体 内 容 的 作者 来 说 ， 可 能 会 因为 开销 太 大 以 至 于 不 能 为 很 多 不 同 的 上 下 文 配置 各 自 的 解决 
方案 。 替 代 的 方法 是 改变 最 初 的 数据 使 之 符合 一 种 适当 的 形式 ， 可 采用 的 手段 有 : 从 原始 数据 中 选择 、 
从 原始 数据 中 生成 内 容 或 对 其 进行 转换 ， 或 以 上 三 个 过 程 的 任何 组 合 。 有 时 ， 原 始 数 据 与 应 该 如 何 表 
示 它 无 关 。 例 如 ， 数 据 可 能 是 XML 格式 的 ， 肢 本 是 扩展 样式 表 转 换 语言 格式 (XSLT) ， 它 用 于 在 给 定 
的 上 下 文中 创建 可 呈现 的 形式 。 在 其 他 情况 下 ， 原 始 数 据 已 经 是 一 种 多 媒体 数据 ， 例 如 图 像 ， 在 这 种 
情况 下 ， 自 适应 过 程 称 为 转 码 (transcoding) 。 自 适应 性 可 以 在 媒体 类 型 内 〔( 例 如， 选择 地 图 数据 或 降 
低 图 像 的 分 辨 率 ) 和 媒体 类 型 间 ( 例 如， 根据 用 户 的 偏好 或 根据 消费 设备 是 有 屏幕 还 是 有 音频 输出 ， 
将 文本 转化 成 语音 ， 反 之 亦 然 ) 发 生 。 
在 互联 网 (特别 是 Web) 上 的 客户 /服务 器 系统 中 ， 内 容 自 适应 问题 已 得 到 很 多 的 关注 。Web 模 
型 使 得 自 适应 发 生 在 资源 丰富 的 基础 设施 上 (要 么 在 服务 本 身 中 ， 要 么 在 代理 中 )， 而 不 是 在 资源 贫 
乏 的 客户 端 进行 自 适应 。HTTP 协议 允许 就 内 容 类 型 进行 协商 (参见 5.2 节 ) ; 客户 在 它 的 请 求 头 中 为 
它 可 以 接收 的 内 容 的 MIME 类 型 声明 其 偏好 ， 接 着 服务 器 设法 在 它 返 回 的 内 容 中 匹配 这 些 仿 好。 但 是 
该 机 制 对 于 上 下 文敏 感 自 适应 的 作用 很 有 限 一 一 例如 ， 客 户 能 指定 可 接收 的 图 像 编 码 ， 但 不 能 指定 设 
备 的 屏幕 大 小 。W3C 通过 它 的 设备 独立 工作 小 组 [ ww. w3. org XIX] 和 开放 移动 联盟 (OMA) 
[ www. openmobilealliance. org] 正在 开发 标准 ， 通 过 这 些 标准 能 比较 详细 地 表达 设备 的 功能 和 配置 。 
W3C 开发 了 复合 功能 /偏好 设置 文件 (CC/PP) 使 得 不 同类 型 的 设备 可 以 描述 它们 的 功能 和 配置 ， 例 
如 屏幕 大 小 和 带宽 。OMA 的 用 户 代理 配置 (user agent profile) 规约 为 手机 提供 了 CC/PP 词汇 。 它 非常 
详细 ， 以 至 于 对 某 一 给 定 设 备 ， 它 的 大 小 能 达到 10KB 以 上 。 这 样 的 配置 信息 在 带宽 和 能 量 方面 显得 
太 过 昂贵 ， 以 至 于 不 能 同 请 求 一 起 发 送 ， 所 以 移动 手机 只 能 在 请 求 头 中 发 送 它 的 配置 信息 的 URI。 服 
务 器 检索 规约 以 提供 匹配 的 内 容 ， 并 且 为 了 将 来 的 使 用 ,会 将 该 规约 缓存 起 来 。 
对 带宽 受 限 设备 ， 一 类 重要 的 自 适应 是 类 型 特定 的 压缩 。Fox 等 [1998] 描述 了 一 种 体系 结构 ， 
其 中 代理 在 服务 ( 它 可 能 是 或 可 能 不 是 Web 的 一 部 分 ) 和 客户 之 间 实 时 完成 压缩 。 它 们 的 体系 结构 中 
有 3 个 主要 特征 : . 
。 为 了 适应 有 限 带 宽 ， 压 缩 应 该 会 有 损耗 ， 但 必须 特定 于 媒体 类 型 。 这 样 语义 信息 可 用 来 决定 哪 
种 媒体 特征 比较 重要 ， 应 予以 保留 。 例 如 ， 通 过 去 掉 颜 色 信 息 来 压缩 图 像 。 

。 转 码 应 该 实时 进行 ， 因 为 静态 预先 准备 的 内 容 形式 不 会 提供 足够 大 的 灵活 性 去 处 理 动态 数据 和 
不 断 增 加 的 客户 和 服务 器 组 合 的 情况 。 

。 转 码 应 该 在 代理 服务 器 上 进行 ， 这 样 客户 和 服务 两 者 都 无 需 关 注 转 码 。 不 必 重 写 代 码 ， 计 算 密 
集 的 转 码 活动 可 以 在 合适 的 可 伸缩 的 硬件 上 运行 〈 例 如 机 架 固 定 的 计算 机 集群 ) ， 从 而 使 延迟 
保持 在 可 接受 的 范围 内 。 

当 谈 论 到 易 变 系统 (如 智能 空间 ) 时 ， 我 们 要 回顾 一 下 为 Web 和 其 他 互联 网 规模 的 自 适 应 作出 的 
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一 些 假 设 。 易 变 系统 的 要 求 更 加 苛刻 ， 因 为 它们 可 能 要 求 在 任何 一 对 动态 关联 的 设备 间 有 自 适 应 性 ， 
这 样 自 适应 性 不 再 受 限于 基础 设施 中 某 个 服务 的 客户 。 现 在 ， 有 很 多 潜在 的 提供 商 ， 他 们 的 内 容 需 要 
适 配 。 此 外 ， 这 些 提供 商 也 可 能 因为 资源 太 差 而 不 能 自行 完成 某 些 类 型 的 自 适应 。 

对 智能 空间 的 一 个 建议 是 ， 在 它们 的 基础 设施 中 提供 代理 以 实现 它们 拥有 的 易 变 组 件 闻 的 内 容 自 
适应 [Kiciman and Fox 2000; Ponnekanti et al. 2001] 。 第 二 个 建议 是 应 该 更 密切 地 观察 娜 种 类 型 的 内 容 
自 适应 可 以 并 且 应 该 在 小 型 设备 上 完成 。 在 这 方面 ， 压 缩 是 一 个 很 重要 的 例子 。 

即使 在 基础 设施 中 只 有 一 个 强大 的 自 适应 代理 ,设备 仍然 需要 将 它 的 数据 发 送 给 代理 。 上 面 我 们 
讨论 过 ， 与 处 理 相 比 通信 是 非常 昂贵 的 。 原 则 上 , 在 发 送 前 压缩 数据 是 最 有 效 的 节约 能 量 的 方法 。 然 
而 ， 压 缩 时 的 内 存 访问 模式 对 能 量 消耗 有 很 大 的 影响 。Bar 和 Asanovic [2003] 证 实 ， 第 一 次 压缩 数 
据 时 使 用 默认 的 实现 可 能 要 消耗 更 多 能 量 ， 但 是 对 压缩 和 解压 缩 算 法 〈 特 别 是 对 内 存 访问 模式 ) 进行 
细致 的 优化 后 ， 与 传送 未 压缩 数据 相 比 可 能 会 极 大 地 节约 能 量 。 


19.6.2 适应 变化 的 系统 资源 


虽然 设备 间 的 硬件 资源 〈 如 屏幕 大 小 ) 是 不 同 的 ， 但 它们 至 少 是 稳定 的 并 且 是 我 们 熟悉 的 。 相 比 
之 下 ， 应 用 还 依赖 于 运行 时 变化 的 、 难 预测 的 资源 ， 例 如 可 用 的 能 量 和 网 络 带宽 。 在 本 小 节 中 ， 我 们 
下 面 将 介绍 在 运行 时 处 理 资源 级 别 变 化 的 技术 。 我 们 下 面 将 讨论 操作 系统 对 运行 在 易 变 系统 中 的 应 用 
的 支持 和 在 智能 空间 基础 设施 中 为 应 用 增强 资源 可 用 性 的 支持 。 

对 易 变 资源 自 适应 性 的 OS 支持 ”Satyanarayanan [2001] 描述 了 自 适应 性 的 三 种 方法 。 第 一 种 方 
法 是 为 应 用 请 求 资源 并 得 到 资源 预 留 。 虽 然 资源 预 留 对 应 用 而 言 很 便利 (第 20 章 ) ， 但 在 易 变 系统 中 
满足 QoS 保证 有 时 很 难 ， 甚 至 在 某 些 情况 下 (如 能 量 耗 尽 的 时 候 ) 是 不 可 能 满足 的 。 第 二 种 方法 是 通 
知 用 户 可 用 资源 的 级 别 发 生 了 变化 ， 这 样 他 们 可 以 作出 相应 的 反应 。 例 如 ， 如 果 带 宽 变 低 ， 视 频 播 放 
器 的 用 户 可 以 操作 应 用 程序 中 的 滑动 条 来 改变 帧 率 或 分 辩 率 。 第 三 种 方法 是 0S 通知 应 用 资源 条 件 发 
生 了 变化 ， 而 应 用 根据 它 的 特定 需求 进行 适应 。 

Odyssey [Nobel and Satyanarayanan 1999] 为 应 用 适应 资源 (如 网 络 带 宽 ) 可 用 级 别 的 变化 提供 了 
操作 系统 支持 。 例 如 ， 如 果 带 宽 降 低 ， 那 么 视频 播放 器 可 能 切换 到 颜色 较 少 的 视频 流 ， 也 可 能 调整 分 
办 率 或 帧 率 。 在 Odyssey 体系 结构 中 ， 应 用 程序 管理 数据 类 型 ， 例 如 视频 或 图 像 ， 并 且 随 资源 条 件 的 
变化 调整 保 真 度 〈 类 型 特定 的 质量 ) ， 根 据 保 真 度 呈 现 数据 。 称 为 总 督 〈viceroy) 的 系统 组 件 将 设备 
所 有 的 资源 分 配给 运行 在 设备 上 的 几 个 应 用 。 在 任何 时 候 ， 每 个 应 用 运行 时 带 有 一 个 容忍 窗口 以 容忍 
资源 条 件 的 改变 。 容 忍 窗 口 给 出 了 资源 级 别 的 一 个 区 间 ， 根 据 实际 资源 变化 ， 它 要 选 得 足够 宽 以 便 与 
实际 适应 ， 但 也 要 足够 窄 以 使 得 应 用 始终 运行 在 该 限制 内 。 当 总 督 要 将 资源 等 级 变 成 容忍 窗口 外 的 一 
个 值 时 ， 它 对 应 用 发 出 一 个 向 上 调用 ， 之 后 应 用 做 出 相应 反应 。 例 如 ， 如 果 带 宽 降 到 较 低 级 别 ， 视 频 
播放 器 可 能 变 成 黑白 色 ; 它 可 能 平稳 地 调整 帧 率 和 /或 分 辩 率 。 

利用 智能 空间 资源 在 Cyber foraging [ Satyanarayanan 2001; Goyal and Carter 2004; Balan et 
al. 2003] 中 ， 处 理 受 限 的 设备 在 智能 空间 中 发 现 了 一 个 计算 服务 器 ， 并 将 它 的 一 些 处 理 负载 转 给 该 服 
务 器 。 例 如 ， 将 用 户 的 语音 转化 成 文本 是 一 项 处 理 密集 的 活动 ， 并 且 很 少 有 便携 设备 能 满意 地 实现 这 
个 任务 。 利 用 智能 空间 资源 的 一 个 目标 是 增加 应 用 对 用 户 的 响应 度 一 一 基础 设施 中 的 计算 机 的 处 理 能 [869 
力 是 便携 设备 的 许多 倍 。 但 是 这 也 是 能 量 教 感 自 适 应 的 一 个 例子 : 该 系统 的 另 一 个 目标 是 通过 将 工作 
分 配给 大 功率 计算 服务 器 来 保存 便携 设备 的 电量 。 

Cyber foraging 仍然 面临 一 些 挑战 。 需 要 将 应 用 分 解 ， 以 便 有 效 地 在 计算 服务 器 上 处 理 分 解 后 的 子 
应 用 。 但 是 如 果 没 有 计算 服务 器 可 用 ， 应 用 应 该 仍 能 正确 运行 〈 虽 然 比 较 慢 或 保 真 度 有 所 降低 ) 。 计 
算 服 务 器 应 该 运行 应 用 的 一 部 分 ， 这 部 分 应 用 与 便携 设备 间 的 通信 相对 很 少 ， 否 则 在 低 带宽 连接 上 通 
信 上 所 占用 的 时 间 会 超过 处 理 所 用 的 时 间 。 此 外 ， 便 携 设 备 全 部 的 能 量 消耗 必须 是 令 人 满意 的 。 因 为 通 
信和 需要 消耗 大 量 的 能 量 ， 所 以 使 用 计算 服务 器 不 一 定 能 节约 能 量 。 与 计算 服务 器 通信 耗费 的 能 量 可 能 
超出 转移 处 理 所 节 约 的 能 量 。 

Balan 等 [2003] 讨论 了 如 何 划分 应 用 来 解决 上 述 挑战 ， 并 描述 了 一 个 用 于 监控 资源 级 别 〈 例 如 
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计算 服务 器 的 可 用 性 、 带 宽 和 能 量 ) 的 系统 ， 以 及 使 用 一 个 小 的 分 解 选项 集合 ， 以 适应 在 便携 设备 和 
计算 服务 器 之 闻 划 分 应 用 。 例 如 ， 考 虑 下 面 的 情景 ， 用 户 通过 对 着 移动 设备 说 话 来 显示 文字 ， 再 将 文 
字 翻 译 为 一 种 外 语 (他 们 访问 国家 的 语言 )。 有 多 种 方法 可 以 在 移动 设备 和 计算 服务 器 之 间 划 分 这 个 
应 用 (不 同 的 划分 具有 不 同 的 资源 利用 含义 )。 如 果 有 多 个 计算 服务 器 可 用 ,那么 可 以 让 它们 分 担 识 
别 和 翻译 的 不 同 的 阶段 的 工作 ; 如 果 只 有 一 个 计算 服务 器 可 用 ， 那 么 这 些 应 用 应 该 在 该 机 器 上 共同 运 
行 或 在 移动 设备 和 计算 服务 器 之 问 运行。 

Goyal 和 Carter [2004] 采用 了 一 种 更 静态 的 方法 来 划分 应 用 ， 这 种 方法 假定 应 用 已 分 解 成 独立 的 
通信 程序 。 例 如 ， 移 动 设备 可 以 用 两 种 方式 执行 语音 识别 。 第 一 种 方式 是 ， 应 用 完全 运行 在 移动 设备 
上 (但 速度 很 慢 ) 。 第 二 种 方式 是 ， 移 动 设备 只 运行 用 户 界 面 ， 用 户 界 面 将 用 户 声音 的 数字 音频 装载 
到 计算 服务 器 上 运行 的 一 个 程序 中 ; 该 程序 将 识别 后 的 文本 回 送 给 移动 设备 加 以 显示 。 对 移动 设备 而 
言 ， 发 送 识别 程序 到 计算 服务 器 的 能 量 代价 可 能 很 高 ， 所 以 设备 改 为 发 送 程序 的 URL， 计 算 服务 器 从 
外 部 资源 中 下 载 该 程序 并 运行 。 


19.6.3 ”小结 和 前 景 


本 节 描 述 了 易 变 系统 的 两 种 自 适应 ， 自 适应 是 由 它们 的 蜡 质 和 它们 的 运行 条 件 的 易 变 性 造 动 的 。 
有 根据 媒体 消费 者 的 上 下 文 〈 例 如 设备 的 特征 和 设备 用 户 的 任务 ) 的 多 媒体 数据 自 适应 ; 还 有 根据 系 
统 资源 〈 例 如 能 量 和 带宽 ) 的 动态 等 级 进行 的 自 适 应 。 

我 们 指出 ， 在 原则 上 最 好 制造 出 一 种 自 适应 软件 ， 它 可 以 根据 一 个 对 变化 有 深刻 理解 的 模型 适应 
变化 的 环境 ， 而 不 是 随 需 要 被 迫 以 随机 的 方式 进化 软件 和 硬件 。 然 而 ， 制 造 这 样 的 自 适应 软件 很 困难 ， 
并 且 在 制造 这 样 的 软件 方面 没有 通用 的 协定 。 第 一 ， 变 化 模型 本 身 〈 关 于 资源 等 级 如 何 变化 和 当 它 们 
变化 时 如 何 反应 ) 就 很 难得 到 。 第 二 ， 存 在 软件 工程 方面 的 挑战 。 在 已 存在 的 软件 中 ， 找 到 合适 的 自 
适应 的 地 方 需要 具有 该 软件 工作 的 固有 知识 ， 并 且 不 一 定 能 成 功 。 然 而 ， 在 从 头 开始 创建 新 的 自 适应 
软件 时 ， 可 以 利用 软件 工程 领域 的 技术 (如 面向 方面 的 编程 [Elrad et al. 2001] ) 帮助 程序 员 管 理 自 适 
应 性 。 


19.7 ”实例 研究 : Cooltown 


Hewlett-Packard 的 Cooltown mM H [Kindberg et al. 2002a; Kindberg and Barton 2001] 的 目标 是 为 游 
牧 计 算 (nomadic computing) 提供 基础 设施 ,游牧 计算 是 这 个 项 目 用 于 面向 人 的 移动 和 无 处 不 在 计算 
的 术语 。“ 游 牧 ” 指 人 在 他 们 的 日 常生 活 中 ， 在 不 同 地 点 《例如 家 、 工 作 地 点 和 商店 ) 间 移 动 。“ 计 
算 ” 指 提供 给 游牧 用 户 的 服务 一 一 不 只 是 那些 只 要 连通 就 可 以 提供 的 服务 (如 邮件 )， 更 多 的 是 那些 
与 用 户 进行 移动 的 日 常 物理 世界 中 的 实体 集成 的 服务 。 为 了 访问 这 些 服 务 , 假定 用 户 携带 或 穿戴 带 有 
传感器 的 无 线 设备 。 那 个 项 目 进行 时 经 常 提 及 当时 最 流行 的 设备 形式 : PDA。 在 该 项 目 中 ， 智 能 手机 
和 更 实验 性 的 设备 如 智能 手表 也 被 考虑 了 。 

特别 是 ， 通 过 下 面 两 个 目标 ,项目 把 从 Web 中 学 到 的 成 功 经 验 运用 到 游牧 计算 中 。 因 为 Web 在 虚 
拟 志 界 中 提供 了 丰富 的 、 可 扩展 的 资源 集合 ， 因 此 大 多 数 资源 可 以 潜在 地 通过 将 Web 的 体系 结构 和 
Web 中 已 有 的 资源 扩展 到 物理 世界 中 而 获得 。Cooltown 的 第 一 个 目标 可 以 总 结 为 “任何 事物 都 有 一 个 
Web 页 面 " ;我 们 物理 世界 中 的 每 个 实体 ， 不 论 是 否 是 电子 的 ， 都 有 一 个 相关 联 的 Web 资源 (RA 
Web 4 (Web presence) ) ， 当 存在 这 样 的 实体 时 ， 用 户 就 能 够 方便 地 访问 Web FE. Web 存在 可 能 
只 是 一 个 包括 实体 信息 的 Web 页 ， 也 可 能 是 与 该 实体 关联 的 任何 服务 。 例 如 ， 一 个 物理 产品 的 Web 存 
在 可 以 是 得 到 替换 部 件 的 一 个 服务 。 

第 二 个 目标 是 为 了 与 设备 交互 以 达到 Web 高 度 的 互 操作 性 。 游 牧 用 户 可 能 需要 在 以 前 从 未 到 达 的 
地 方 与 他 们 以 前 从 未 遇 到 的 Web 存在 交互 。 为 了 从 这 些 服务 中 获 益 ， 用 户 不 得 不 在 他 们 的 便携 设备 上 
装载 新 软件 或 重新 配置 已 有 的 软件 ， 这 对 用 户 而 言 是 不 可 接受 的 。 

我 们 关注 Cooltown 体系 结构 的 主要 方面 ( 见 图 19-12) 有 : Web 存在 、 物 理 超 链 接 〈 它 从 物理 实体 
连接 到 Web 存在 ， 从 而 连接 到 该 Web 上 的 超 链接 资源 ) 、eSquir (一 个 与 Web 存在 设备 互 操作 的 协议 )。 
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eSquirt: URL 交 换 上 下 文 〈 聚 合 的 Web 表 示 ) 
Web 表 示 
物理 超 链接 
ID 解析 网 络 服务 发 现 
直接 URL 感 知 
ID 感知 


图 19-12 Cooltown 的 各 层 


19.7.1 Web 存在 


Cooltown 考虑 将 物理 实体 划分 为 三 种 类 型 : 人 、 地 点 和 物体 。 人 、 地 点 或 物体 的 Web 存在 是 为 适 
合 特定 应 用 而 选择 的 任何 可 能 的 Web 资源 ; 但 是 Cooltown 为 人 和 地 点 的 Web 存在 选 定 了 某 些 角色 。 物 
体 和 人 的 Web 存在 被 收集 在 地 点 的 Web 表示 中 ， 所 以 下 面 的 描述 遵循 这 个 顺序 。 

物体 :“ 物 体 ”是 指 设备 或 者 非 电子 的 物理 实体 。 通 过 将 Web 服务 器 嵌入 物体 中 或 者 在 Web 服务 
器 内 拥有 它们 的 Web 表示 ， 物 体 就 成 为 Web 存在。 如 果 物 体 是 设备 ， 那 么 它 的 URL 就 是 它 实现 的 服 
务 。 例 如 , “互联 网 收音 机 ”是 一 个 音乐 播放 设备 ， 它 拥有 自己 的 Web 存在 。 发 现 互 联网 收音 机 的 
URL 的 用 户 得 到 一 个 可 控 的 Web 页 面 ， 使 得 用 户 可 以 将 它 “ 调 ”到 一 个 互联 网 广播 源 ， 还 可 以 调整 它 
的 设置 (如 音量 ), 或 者 上 载 用 户 自己 的 声音 文件 。 即 使 非 电子 物体 也 可 以 有 Web 存在 ， 即 这 种 Web 
存在 是 与 该 物体 关联 的 一 个 Web 资源 ， 但 由 其 他 地 方 的 Web 服务 器 拥有 。 例 如 ， 一 个 打印 出 来 的 文档 
的 Web 存在 可 以 是 它 对 应 的 电子 文档 : 用 户 可 以 从 物理 制品 上 发 现 它 的 Web 存在 (正如 我 们 在 
19.7.2 节 解 释 的 ) 并 请 求 新 的 打印 ， 而 不 是 去 影印 已 打印 的 文档 (那样 会 降低 质量 )。 音 乐 CD 的 
Web 存在 可 能 是 一 些 相 关 的 数字 内 容 (如 额外 的 音乐 剪辑 和 图 像 )， 这 些 内 容 保 存在 其 拥有 者 的 个 人 
媒体 集合 中 。 

人 : 人 通过 提供 带 有 方便 通信 的 服务 的 Web 主页 以 及 通过 提供 关于 他 们 当前 上 下 文 的 信息 而 成 为 
Web 存在 。 例 如 ， 没 有 移动 电话 的 用 户 可 以 通过 它们 的 Web 存在 使 得 本 地 电话 号 码 可 用 ， 这 个 Web 存 
在 是 一 个 数值 ， 当 他 们 到 处 走动 时 ， 他 们 的 Web 存在 自动 更 新 该 电话 号 码 值 。 但 是 他 们 也 可 能 用 显 式 
地 注册 当前 的 位 置 作为 他 们 的 Web 存在 ， 这 里 ， 显 示 注 册 可 以 通过 一 个 到 他 们 所 处 的 物理 地 点 的 Web 
存在 的 链接 来 完成 。 . 

地 点 : 使 用 本 章 的 术语 ， 地 点 是 智能 空间 。 地 点 变 成 Web 存在 是 通过 注册 在 其 中 的 人 和 物体 的 
Web 存在 一 一 甚至 嵌 套 的 或 其 他 相关 的 地 点 的 Web 存在 ， 注 册 工 作 可 由 带 有 一 个 地 点 特定 的 目录 服务 
完成 (13.3 节 ) 。 地 点 的 目录 也 包括 相对 静态 的 信息 ， 例 如 对 地 点 的 物理 特征 和 功能 的 描述 。 目 录 服 
务 使 得 组 件 发 现 地 点 内 的 动态 Web 存在 集合 ， 并 与 之 交互 。 它 也 可 作为 有 关 地 点 和 它 的 内 容 的 一 个 信 
息 源 〈 以 Web 页 面 的 形式 展示 给 用 户 ) 。 

地 点 内 Web 存在 的 目录 条 目 可 以 通过 两 种 方法 建立 ， 第 一 ， 由 网 络 发 现 服务 (19.2.14) 自动 注 
册 该 地 点 子 网 内 设备 所 实现 的 任何 Web 存在 一 一 地 点 内 无 线 连接 的 设备 ， 或 该 地 点 的 基础 设施 服务 
器 。 然 而 ， 即 使 网 络 发 现 服 务 很 有 用 ， 它 们 也 不 得 不 面 对 不 是 所 有 的 Web 存在 都 由 该 地 点 子 网 内 的 设 
备 拥 有 的 事实 。 非 电子 物理 实体 的 Web 存在 ， 包 括 人 、 打 印 的 文档 和 音乐 CD， 它 们 是 被 移 人 地 点 或 
被 带 进 地 点 的 ， 可 能 属于 其 他 地 方 。 这 些 Web 存在 必须 在 一 个 称 为 物理 注册 (physical registration) 的 
过 程 中 手动 地 注册 到 那里 或 通过 感知 机 制 ( 例 如 ， 通 过 感知 它们 的 .RFID 标签 ) 进行 注册 。 

KH Web 存在 管理 器 [Debaty and Caswell 2001] 的 服务 管理 着 Web 存在 的 地 点 《例如 ， 一 个 建 
筑 物 的 所 有 房间 ) ， 它 也 管理 人 和 物体 的 Web 存在 。 地 点 是 Cooltown 的 上 下 文 抽象 的 一 个 特殊 实例 : 





一 组 相关 的 Web 存在 实体 为 某 些 目的 〈 如 浏览 ) 链接 在 一 起 。Web 存在 管理 器 将 每 个 有 Web FEKK 


体 与 该 实体 上 下 文中 实体 的 Web 存在 关联 。 例 如 ， 如 果实 体 是 物体 ， 它 的 相关 实体 可 能 是 携带 它 的 人 和 
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放置 它 的 地 方 。 如 果实 体 是 人 ， 他 的 相关 实体 可 能 是 他 携带 的 物体 、 他 当前 所 处 的 地 点 和 周围 的 人 。 


19.7.2 物理 超 链接 


Web 存在 与 其 他 的 Web 资源 类 似 ， 所 以 Web 页 也 可 以 像 其 他 链接 一 样 包含 到 Web 存在 的 文本 或 
图 像 链接 。 但 是 ， 在 那些 标准 Web 链接 模型 中 ， 用 户 通 过 信息 源 〈 即 Web 页 ) 找到 人 、 地 点 或 物体 
的 Web 存在 。Cooltown 设计 使 人 从 他 们 的 物理 源 〈 记 就 是 他 们 每 天 在 物理 世界 移动 时 遇 到 的 具体 的 
人 、 地 点 或 物体 ) 直接 到 达 相 应 的 Web 存在 。 

物理 超 链 接 (physical hyperlink) 是 一 种 手段 ， 通 过 它 用 户 能 够 从 物理 实体 本 身 或 它 邻 近 的 环境 检 
索 实 体 的 Web 存在 的 URL。 我 们 现在 考虑 实现 物理 超 链 接 的 方式 。 首 先 ， 考 虑 Web 页 中 一 个 典型 链接 
的 HTML 标记 ， 例 如 : 

< a href="http.//cdk4.net/ChopSuey.html" >Hopper's painting Chop Suey</a> 

表示 将 Web 页 中 的 文本 “Hopper’”s painting Chop Suey” 链 接 到 位 于 http; /cdk4. net/ChopSu- 
ey. html 的 关于 Edward Hopper 的 作品 Chop Suey 的 网 页 。 现 在 ， 考 虑 这 个 问题 : 博物 馆 的 访问 者 看 到 一 
ABE, ， 如 何 通过 “点 击 ” 该 作品 以 在 他 们 的 手机 、PDA 或 其 他 便携 设备 的 浏览 器 上 得 到 有 关 该 
绘画 的 信息 。 这 可 能 需要 一 种 方法 从 作品 本 身 的 物理 配置 中 或 它 的 物理 环境 中 发 现 该 作品 的 URL, — 
种 方法 是 将 作品 的 URL 写 在 墙 上 ， 这 样 用 户 可 以 将 该 URL 键入 他 们 的 设备 的 浏览 器 中 。 但 是 这 种 方法 
RAN, FAN. 

Cooltown 利用 用 户 拥有 与 他 们 的 设备 集成 的 传感器 。 项 目 研 究 出 了 两 种 主要 通过 传感器 发 现实 体 
的 URL 的 方法 : 直接 感知 和 间接 感知 。 

直接 感知 : 在 该 模型 下 ， 用 户 设备 直接 从 标签 (“自动 标识 ”标签 ) 或 附 在 感 兴趣 的 实体 上 的 信 
标 或 在 实体 旁边 的 信 标 感知 到 URL (参见 19.4.3 节 ) 。 一 个 相对 较 大 的 实体 (如 房间 ) 在 容易 看 见 的 
位 置 可 能 有 几 个 标签 或 信 标 。 标 签 是 一 个 被 动 的 设备 或 制品 ， 当 用 户 将 他 们 设备 的 传感器 放置 在 它 旁 
边 时 ， 它 会 显示 URL。 例 如 ， 拍 照 手 机 在 原理 上 可 以 对 写 在 标签 上 的 URL 实行 光学 字符 识别 或 者 读 取 
编码 成 二 维 条 形 码 的 URL。 另 一 方面 ， 信 标定 期 发 射 实体 的 URL， 通 常 通过 (定向 的 ) 红外 线 而 不 是 
无 线 电 ， 因 为 无 线 电 通常 是 全 方位 的 ， 因 此 会 导致 不 确定 哪个 URL 属于 哪个 实体 。 

特别 是 ，Cooltown 项 目 以 小 设备 形式 〈 仅 几 厘 米 长 ) 开发 信 标 ， 这 些小 设备 每 几 分 钟 使 用 一 种 单 
程 触发 的 、 无 连接 协议 通过 红外 线 发 射 一 个 字符 串 ( 图 19-13a) 。 发 射 的 字符 串 是 类 似 XML 的 文档 ， 
包括 实体 的 Web 存在 的 URL 和 一 个 简短 的 标题 。 许 多 在 项 目 开 始 时 可 获得 的 便携 设备 〈 如 手机 和 
PDA) 中 都 集成 了 红外 线 接收 器 ， 因 此 能 够 接收 这 样 的 字符 串 。 当 客户 程序 接收 字符 串 时 ， 它 能 使 用 
设备 的 浏览 器 直接 连接 到 接收 到 的 URL， 也 可 以 用 接收 到 的 标题 创建 一 个 到 接收 到 的 URL 的 超 链接 ， 
并 将 该 超 链接 加 入 到 接收 到 的 超 链 接 列 表 中 ， 之 后 用 户 可 以 点 击 相应 的 超 链接 。 





SE 
ar 
D J PDA 或 手机 | ») 
<link title="Chop Suey” href= “http..”> <link title=“Chop Suey” href=“http..”> 
a) 用 户 捕获 绘画 作品 的 Web 存在 的 URL b) 用 户 使 用 eSquirt 发 送 URL 到 打印 机 ， 
打印 绘画 作品 的 Web 存 在 


图 19-13 ”捕获 和 打印 绘画 作品 的 Web 存在 


间接 感知 : 间接 感知 是 用 户 设备 从 一 个 标签 或 信 标 中 得 到 一 个 标识 符 ， 通 过 查询 它 得 到 一 个 URL。 
感知 设备 知道 一 个 解析 器 (resolver) 的 URL， 这 个 解析 器 是 一 个 名 字 服 务 器 ， 它 维护 一 个 从 标识 符 到 
URL (第 13 章 中 的 术语 叫 名 字 上 下 文 ) 的 绑 定 集合 ， 并 返回 绑 定 到 给 定 标识 符 的 URL [Kindberg 
2002] 。 在 理想 情况 下 ， 用 于 实体 标识 符 的 名 字 空 间 将 足够 大 以 使 得 每 个 物理 实体 有 一 个 唯一 的 标识 
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符 ， 从 而 消除 了 二 义 性 。 然 而 ， 原 则 上 ， 本 地 标识 符 只 要 曾经 被 本 地 解析 器 查找 过 ， 就 可 以 被 使 用 。 
否则 ， 可 能 得 到 假 的 结果 ， 因 为 其 他 人 可 能 为 另 一 个 实体 使 用 了 相同 的 标识 符 。 

有 时 需要 使 用 间接 感知 ， 因 为 标签 技术 中 的 限制 意味 着 不 可 能 直接 感知 URL。 例 如 ， 线 性 条 形 码 
没有 足够 的 能 力 存 储 任意 一 个 URL; 便宜 的 REID 标签 只 能 存储 一 个 定 长 的 二 进 制 标识 符 。 在 这 些 情 
况 下 ， 必 须 查 询 存 储 的 标识 符 以 得 到 Web 存在 的 URL, 

不 过 ， 使 用 间接 感知 还 有 一 个 积极 的 原因 : 它 人 允许 给 定 的 物理 实体 有 一 组 Web 存在 而 不 是 只 有 一 
个 Web 存在 。 正 如 短语 “Hopper s painting Chop Suey” 可 能 出 现在 多 个 Web 网 页 上 ， 而 且 链 接 到 不 同 
的 Web 网 页 ， 给 定 的 物理 绘画 作品 可 能 根据 所 选 的 解析 器 的 不 同 导 致 不 同 的 Web 存在 。 例 如 ， 某 个 作 
癌 的 一 个 Web 存在 可 以 是 一 个 到 服务 的 链接 ， 该 服务 是 在 博物 馆 中 邻近 的 打印 机 上 打印 一 个 副本 ; 该 
作品 的 另 一 个 Web 存在 可 以 是 一 个 提供 该 作品 信息 的 网 页 ， 这 些 信 息 来 自 一 个 与 博物 馆 无 关 的 独立 的 
第 三 方 。 

解析 的 实现 遵循 Web 体系 结构 ， 其 中 每 个 解析 器 是 一 个 独立 的 Web 站 点 。 客 户 软件 是 一 个 浏览 器 
加 上 一 个 简单 的 插件 。 解 析 器 提供 Web 表单 (包括 一 个 用 户 填写 的 域 ) 作为 感知 产生 的 副作用 ， 而 不 
是 将 域 显示 给 用 户 让 其 手工 填写 。 也 就 是 说 ， 当 用 户 扫 描 条 形 码 时 ， 作 为 结果 的 标识 符 自动 地 填写 到 
表单 中 ， 并 且 客 户 将 表单 发 送 给 解析 器 。 解 析 器 返回 相应 的 URL (如 果 存 在 )。 

因为 解析 器 本 身 也 是 Web 资源 ， 所 以 它们 像 其 他 Web 页 面 一 样 ， 用 户 可 以 导航 到 解 板 器 [Kind- 
berg 2002] ， 并 通过 客户 使 用 的 解析 器 更 新 信息 。 特 别 地 ， 用 户 可 能 使 用 本 地 物理 超 链接 得 到 本 地 解析 
器 的 URL。 例 如 ， 博 物 馆 的 管理 者 可 以 建立 Cooltown 信 标 让 其 发 射 本 地 解析 器 的 URL， 这 样 访问 者 能 
够 使 用 解析 器 得 到 博物 馆 内 与 绘画 相关 的 Web 存在 。 同 样 的 ， 如 果 绘 画作 品 的 标识 符 是 众所周知 的 ， 
那么 访问 者 就 可 以 利用 Web 上 其 他 地 方 的 解析 器 。 例 如 ， 一 个 西班牙 的 访问 者 在 访问 北美 的 一 个 博物 
馆 时 可 能 利用 保存 成 书签 的 西班牙 艺术 博物 馆 站 点 的 解析 器 。 

最 后 ， 尽 管 我 们 已 经 指出 间接 感知 相对 于 直接 感知 的 几 个 优点 ， 但 它 也 有 一 个 缺点 : 客户 连接 到 
解析 器 会 产生 额外 的 往返 ， 同 时 有 延迟 和 能 量 消耗 。 


19.7.3 互 操作 和 eSquirt 协议 


一 个 Web 存在 的 目标 设备 和 用 户 便携 设备 之 间 进 行 互 操作 的 一 种 方法 是 使 用 标准 的 Web 协议 。 用 
户 的 便携 设备 发 起 一 个 HTTP GET 或 POST 操作 ;目标 设备 以 Web 页 面 形式 的 用 户 界面 作为 响应 ， 便 
携 设 备 负责 呈现 这 个 Web 页 面 。 回 到 前 面 的 例子 ， 一 个 Web 存在 的 互联 网 收音 机 可 以 通过 面向 用 户 的 
信 标 给 出 它 的 Web 服务 的 URL。 用 户 走 到 收音 机 前 ， 将 他 们 的 便携 设备 〈 也 就 是 PDA) 上 的 红外 线 接 
收 器 指向 它 ，PDA 上 的 客户 程序 从 收音 机 上 接收 到 URL， 并 将 URL 传送 给 它 的 浏览 器 。 结 果 ，PDA 上 
出 现 收音 机 的 “ 主 ” 页 ， 它 带 有 控制 面板 用 以 调节 它 的 音量 ,可 以 从 PDA 上 载 和 播放 声音 文件 ， 
等 等 。 

博物 馆 内 的 Web 存在 的 打印 机 也 具有 类 似 的 行为 。 用 户 通过 打印 机 的 信 标 得 到 打印 机 的 主页 ， 这 
样 能 够 上 载 内 容 到 打印 机 并 通过 Web 页 面 指定 打印 机 的 设置 。 当 然 , 设备 (如 打印 机 ) 可 能 有 物理 用 
户 界面 ， 但 是 简单 的 应 用 〈 如 数码 相框 ) 则 可 能 没有 ， 那 么 虚拟 的 用 户 界面 就 是 最 基本 的 了 。 

以 上 互 操作 的 形式 是 面向 数据 的 并 且 是 与 设备 无 关 的 ， 这 大 体 上 与 Web 类 似 。 因 为 目标 设备 提供 
了 自己 的 用 户 界面 ， 所 以 用 户 可 以 通过 他 们 的 浏览 器 控制 设备 ， 而 不 需要 目标 设备 特定 的 软件 。 例 如 ， 
PDA 上 带 有 图 像 文 件 的 用 户 可 以 在 任何 图 像 旦 现 设备 上 呈现 它 ， 不 论 是 打印 机 还 是 数码 相框 都 可 以 ; 
PDA 上 带 有 声音 文件 的 用 户 可 以 在 任何 音频 播放 设备 上 收听 该 文件 ， 不 论 它 是 一 个 互联 网 收音 机 还 是 
一 个 “智能 ”的 HiFi 系统 。 

那些 场景 的 问题 在 于 用 户 的 便携 设备 的 资源 相对 圈 乏 ， 该 设备 可 能 有 低 带宽 的 无 线 连接 ， 该 无 线 
连接 处 在 内 容 源 和 目的 地 之 间 的 内 容 传递 路 径 上 。 假 设 用 户 在 安装 了 Cooltown 的 博物 馆 中 已 得 到 绘画 
作品 的 一 个 图 像 ， 或 者 已 得 到 某 人 评论 该 作品 的 一 段 音频 剪辑 。 在 这 种 情况 下 ， 因 为 资源 有 限 〈 例 如 
屏幕 大 小 和 带宽 ) ， 所 以 可 以 将 19. 6 节 介绍 的 自 适应 技术 加 以 运用 ， 从 而 在 便携 设备 上 得 到 图 像 或 音 
频 剪辑 的 较 低 失真 的 版 本 。 当 用 户 将 图 像 传 送 到 博物 馆 的 打印 机 ， 或 者 在 宾馆 房间 将 声音 剪辑 传送 到 
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网 上 电台 ， 它 们 的 质量 将 会 降低 ， 即 使 那些 设备 有 能 力 进行 高 质量 的 演 染 ， 并 且 可 能 有 高 带宽 的 有 线 
网 络 连 接 。 

在 Cooltown 中 ， 用 于 设备 间 互 操作 的 eSquirt 协议 解决 了 低 失 真 的 问题 ， 并 避免 了 宝贵 的 带宽 和 能 
量 消耗 ， 方 法 是 将 内 容 的 URL 从 一 个 设备 传送 到 另 一 个 ， 而 不 是 传送 内 容 本 身 。 事 实 上 ， 该 协议 与 通 
过 红外 线 将 URL 〈 和 标题 ) 从 一 个 Cooltown 信 标 发 送 到 设备 的 协议 相同 〈 图 19-13b) 。 设 备 通过 低能 
量 红外 线 介质 传送 少量 数据 ， 并 且 这 是 eSquirt 协议 唯一 的 网 络 操作 ， 所 有 设备 都 涉及 该 操作 。 然 而 ， 
接收 设备 可 以 作为 Web 客户 使 用 URL 检索 内 容 ， 并 执行 操作 〈 例 如 呈现 结果 数据 ) 。 

例如 ， 用 户 从 Hopper 的 绘画 作品 旁 的 信 标 得 到 该 作品 的 URL, 通过 使 用 具有 eSquirt 功能 的 PDA 
可 将 该 URL 发 送 到 一 个 打印 机 。eSquirt 使 用 的 协议 是 不 可 靠 的 ， 但 是 ， 和 一 个 电视 远程 控制 器 一 样 ， 
如 果 传 输 失 败 ， 那 么 用 户 可 再 次 按 下 “squirt” 按 钮 ， 直 到 从 打印 机 来 的 反馈 确认 了 成 功 执行 为 止 。 之 
后 打印 机 〈 更 确定 的 说 是 打印 服务 ， 它 可 能 在 基础 设施 中 实现 ) 作为 一 个 Web 客户 从 URL 中 检索 内 
容 (以 高 保 真 的 形式 ) 并 打印 它 。 

这 样 ， 用 户 的 便携 设备 可 以 作为 该 URL 的 一 个 与 设备 无 关 的 剪 切 板 ， 类 似 于 桌面 用 户 界面 上 的 复 
制 - 粘贴 操作 中 与 应 用 无 关 的 数据 剪 切 板 。 用 户 采 用 设备 在 源 和 目的 地 之 间 “ 复 制 和 粘贴 ”URL， 从 
而 在 它们 之 闻 传 送 内 容 。 

与 设备 无 关 是 Squirt 范 型 最 重要 的 优势 。eSquirt 协议 总 是 以 相同 的 方式 工作 ， 不 同 的 是 接收 器 对 
URL 的 处 理 过 程 。 然 而 ， 用 户 必须 对 发 射 的 URL 和 接收 设备 怎样 组 合 才 会 有 意义 要 有 理性 的 认识 。 接 
收 设备 的 设计 者 必须 想到 一 些 可 能 的 错误 : 用 户 可 能 错误 地 将 一 个 音频 文件 的 URL 发 射 到 打印 机 。 不 
过 ， 我 们 不 提倡 在 设计 时 就 解决 这 些 错 误 。 采 取 预 防 措施 (例如 类 型 检查 ) 可 能 导致 我 们 在 19. 2.2 节 
提 到 的 丢失 机 会 和 脆弱 的 互 操作 现象 。 

虽然 简单 性 是 eSquirt 协议 的 一 个 优点 ， 但 它 的 缺点 是 它 依赖 于 接收 设备 的 默认 设置 ， 或 者 依赖 使 
用 物理 控制 器 来 输入 它 的 设置 。 也 就 是 说 ，eSquirt 不 能 使 用 我 们 在 本 小 节 开 始 提 到 的 互 操作 范 型 。 在 
该 范 型 中 ， 客 户 设备 为 控制 目标 设备 的 设置 获得 一 个 虚拟 用 户 界面 。 例 如 ， 将 一 个 声音 文件 或 一 个 流 
式 无 线 电 电 台 的 URL 发 射 到 网 上 电台 后 ， 用 户 如 何 用 他 们 的 便携 设备 控制 音量 ? 习题 19. 19 将 讨论 这 
个 问题 。 


19.7.4 ”小 结 和 前 景 


我 们 已 经 概述 了 Cooltown 体系 结构 的 主要 特点 。 该 项 目的 目标 是 通过 扩展 Web 〈 即 超 链 接 内 容 的 
一 个 虚拟 集合 ) 到 物理 世界 中 的 实体 ， 而 不 管 那些 实体 本 身 是 否 有 电子 功能 ， 从 而 方便 游 雪 用 户 。 体 
系 结构 考虑 了 物理 实体 〈 包 括 人 、 地 点 和 物体 ) 如 何 关联 到 Web 存在 。 其 次 是 物理 超 链 接 一 一 从 物理 
实体 上 感知 Web 存在 的 URL 的 机 制 。 项 目 使 用 红外 线 信 标 、 标 签 〈 例 如 条 形 码 和 RFID 标签 ) 和 解析 
器 将 标识 符 转 变 为 URL， 从 而 实现 物理 超 链 接 。 随 着 从 PDA 转向 智能 手机 ， 对 红外 线 的 支持 在 下 降 ; 
而 对 2D 和 1D 条 形 码 的 读 取 支持 以 及 (在 一 些 国家 中 ) 对 NFC MALS RFID 的 支持 在 增加 。 最 后 ， 
eSquirt 是 一 个 与 设备 无 关 的 互 操 作协 议 ， 它 将 低 功 耗 的 便携 式 设 备 从 内 容 源 和 目的 地 之 间 的 内 容 路 径 
中 解脱 出 来 。 

Cooltown 在 很 大 程度 上 达到 了 它 的 目标 ， 但 建立 在 人 会 “不 断 重 复 指 令 ” 的 假设 上 。 人 通过 物理 
超 链 接 发 现 与 他 们 遇 到 的 实体 相关 联 的 服务 。 人 可 能 也 需要 注册 贴 有 标签 的 非 电子 实体 的 Web FE, 
如 音乐 CD， 当 这 些 实体 被 放 在 一 个 Web 存在 方式 的 地 点 (如 一 座 房 子 ) 中 ， 这 样 它们 在 那 就 变 成 电 
子 可 发 现 的 了 。 最 终 ， 人 不 但 通过 “点 击 ”物理 超 链接 将 他 们 的 便携 设备 关联 到 Web 存在 实体 ， 而 且 
通过 Squirt 协议 带 来 了 与 设备 无 关 的 互 操作 。 人 的 参与 增加 了 灵活 性 ， 并 解决 了 丢失 交互 机 会 的 问 
题 。 然 而 ， 简 单 eSquir 互 操作 模型 不 能 让 用 户 控制 接收 设备 如 何 处 理 他 们 发 送 的 URL。 

另 一 项 研究 是 关于 自动 关联 和 Web 存在 实体 的 互 操作 。 每 个 物理 实体 可 以 有 统一 类 型 的 Web 存在 
实例 ， 它 将 记录 该 实体 的 语义 的 细节 (可 能 使 用 语义 Web 技术 ) ， 包 括 该 实体 和 其 他 实体 之 间 的 关系 ， 
特别 是 Web 存在 的 人 或 物体 和 包括 它们 的 Web 存在 地 点 之 间 的 关系 。 因 此 ， 给 定 地 点 的 Web 存在 可 
以 互相 发 现 并 进行 互 操 作 。 例 如 ,在 会 议 上 ， 秘 书 的 Web 存在 可 以 在 会 议 室内 发 现 需 要 打印 的 文档 、 
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发 现 出 席 的 人 员 、 发 现 附近 的 打印 机 并 且 打 印 一 定数 目的 副本 。Cooltown 的 Web 存在 管理 器 [Debaty 
and Caswell 2001] 已 经 开始 实现 这 个 目标 ， 不 只 是 对 地 点 而 是 对 Web 存在 的 物体 和 人 统一 管理 ， 这 些 
物体 和 人 链接 到 相关 的 实体 ， 例 如 他 们 所 在 的 Web 存在 的 地 点 。 例 如 ， 当 一 个 实体 进入 一 个 新 地 点 并 
在 那里 注册 时 ， 实 体 用 一 个 到 它 新 地 点 的 Web 存在 的 链接 自动 地 进行 更 新 。 理 想 情 况 下 ， 实 体 关 系 将 
全 部 编程 建立 ， 而 不 是 由 当前 可 用 的 有 限 的 支持 来 建立 。 但 是 ， 由 于 我 们 日 常 世界 的 复杂 语义 ， 使 得 
以 一 种 实际 有 用 而 没有 错误 的 方式 实现 一 个 应 用 (如 自动 会 议 支持 ) 还 有 很 长 的 路 要 走 。 同 时 ， 在 交 
互 中 包括 人 为 参与 将 可 能 取得 进展 。 


19.8 小结 


本 章 给 出 了 移动 和 无 处 不 在 计算 系统 的 主要 挑战 ， 并 给 出 了 一 些 解决 方案 (因为 可 用 的 方案 不 
多 ) 。 大 多 数 挑战 源 于 下 面 的 事实 : 系统 是 易 变 的 ， 这 很 大 程度 上 是 由 于 系统 与 我 们 日 常 物理 世界 集成 
在 一 起 造成 的 。 系 统 是 易 变 的 ， 因 为 在 给 定 智能 空间 中 用 户 、 硬 件 和 软件 组 件 集合 会 发 生 不 可 预测 的 
改变 。 组 件 倾 向 于 常规 化 地 建立 和 打 断 关联 ， 或 者 是 由 于 它们 从 一 个 智能 空间 移入 另 一 个 智能 空间 或 
者 是 由 于 失效 。 连 接 带 宽 随时 间 会 产生 很 大 变化 。 组 件 可 以 因 电量 耗 尽 或 其 他 原因 而 失效 。19.1 ~ 
19. 3 节 全 面 地 讨论 了 易 变 性 的 这 些 方面 和 一 些 用 于 关联 组 件 并 使 得 它们 互 操作 〈 尽 管 有 “不 断 的 改 
变 ” 的 困难 ) 的 技术 。 

设备 与 我 们 的 物理 世界 的 集成 涉及 感知 和 上 下 文敏 感 〈 见 19.4 节 ) ， 并 且 我 们 已 经 描述 了 处 理 感 
知 数据 的 一 些 体系 结构 。 但 存在 一 个 可 以 描述 为 物理 保 真 度 (physical fidelity) 的 挑战 : 带 有 感知 和 计 
算 行为 的 系统 如 何 精确 地 按照 把 我 们 与 我 们 居住 的 物理 世界 相关 联 的 敏感 语义 运转 ? 当 我 们 在 不 同 地 
点 之 间 移 动 时 ， 一 个 “上 下 文敏 感 手机 ”是 否 能 够 真 的 如 我 们 所 希望 的 那样 恰当 地 禁止 啊 铃 ? 在 Cool- 
town 中 ， 一 个 地 点 《如 宾馆 房间 ) 的 Web 存在 是 否 真实 记录 了 在 那个 地 点 的 所 有 的 Web 存在 实体 ， 
或 者 没有 ， 例 如 ， 有 些 在 相 邻 房间 内 ? 

安全 性 和 私密 性 〈 见 19.5 节 ) 成 为 移动 和 无 处 不 在 系统 研究 的 一 大 特色 。 易 变性 使 安全 性 问题 更 
加 复杂 ， 因 为 它 回避 了 这 个 问题 : 组 件 想 要 建立 安全 通道 ， 那 么 ， 什 么 是 建立 组 件 之 间 信 任 的 基础 ? 
幸运 的 是 ， 物 理 受 限 通道 的 存在 对 构建 有 人 存在 的 安全 通道 有 一 定 作 用 。 物 理 集 成 对 私密 性 有 影响 : 
如 果 对 用 户 进行 跟踪 并 提供 给 他 们 上 下 文敏 感 服务 ， 那 么 可 能 导致 严重 的 私密 性 损失 。 我 们 描述 了 一 
些 用 于 标识 符 管 理 的 方法 ， 概 述 了 用 于 减少 该 问题 的 统计 技术 。 

物理 集成 也 意味 着 对 设备 能 量 、 无 线 带宽 和 用 户 界 面 等 因素 的 新 的 限制 ， 对 于 传感器 网 络 中 的 结 
点 ， 前 两 者 很 少 ， 没 有 最 后 一 个 因素 ; 对 于 手机 ， 这 三 者 都 有 ， 但 仍 比 桌面 机 器 少 很 多 。19. 6 节 讨 论 
了 一 些 体系 结构 ， 在 这 些 体系 结构 中 ， 组 件 能 够 适应 资源 限制 。 

19.7 节 将 Cooltown 项 目 作 为 一 个 实例 研究 ， 描 述 了 其 体系 结构 。 该 体系 结构 独特 之 处 在 于 它 将 从 
Web 中 学 到 的 经 验 运 用 到 无 处 不 在 计算 中 。 它 的 优势 是 高 度 的 互 操作 性 。 但 是 ，Cooltown 主要 用 于 人 
监控 交互 的 情况 。 

最 后 ， 本 章 重点 讨论 了 移动 和 无 处 不 在 系统 与 本 书 其 他 章节 介绍 的 更 传统 的 分 布 式 系统 的 差异 ， 
主要 集中 在 易 变性 和 物理 集成 方面 。 习 题 19. 20 将 请 读者 列 出 它们 的 一 些 相似 点 ， 并 考虑 将 传统 分 布 
式 系统 解决 方案 应 用 到 移动 和 无 处 不 在 系统 的 程度 。 


练习 


19.1 什么 是 易 变 系统 ? 列举 在 无 处 不 在 系统 中 会 发 生 的 变化 的 主要 类 型 。 (第 821 W) 
19.2 ”讨论 是 否 可 能 通过 组 播 (或 广播 ) 和 缓存 对 查询 的 应 答 改 进 服务 发 现 的 “ 拉 ” 模 型 。 (第 831 页 ) 
19.3 ”解释 为 什么 要 在 发 现 服务 中 使 用 租 期 来 处 理 服务 易 变 性 问题 ? (第 831 页 ) 
19.4 Jini 查找 服务 基于 属性 或 Java 类 型 以 提供 匹配 用 户 请 求 的 服务 。 举 例 说 明 这 两 种 匹配 方法 的 不 同 。 

这 两 种 匹配 各 有 什么 优势 ? (第 832 页 ) 


19.5 “描述 允许 客户 和 服务 器 定位 查找 服务 器 的 Jini“ 发 现 ” 服 务 中 IP 组 播 和 组 名 字 的 使 用 。 (第 832 页 ) 
19.6 什么 是 面向 数据 编程 ? 它 与 面向 对 象 编程 有 何不 同 ? (第 837 页 ) 
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19.7 讨论 下 列 问题 : 事件 系统 的 范围 能 怎样 和 应 该 如 何 联系 到 使 用 它 的 智能 空间 的 物理 范围 。 


(第 838 页 ) 

19.8 ”比较 和 对 比 智能 空间 基础 设施 中 与 事件 系统 和 元 组 空间 相关 的 持久 性 需求 。 《第 840 页 ) 
19.9 ”描述 感知 显示 器 旁 用 户 在 在 的 三 种 方法 ， 从 而 给 出 上 下 文敏 感 系统 的 体系 结构 的 一 些 特色 。 

(第 844 页 ) 

19.10 解释 无 线 传感器 网 络 网 内 处 理 的 含义 ， 并 说 明 其 动机 。 (第 849 页 ) 

19.11 在 活动 蝙蝠 定位 系统 中 ， 为 得 到 一 个 三 维 位 置 ， 默认 情况 下 只 使 用 三 个 超声 波 接 收 器 ， 而 在 卫星 导 

航 中 为 得 到 一 个 三 维 位 置 却 需要 四 颗 卫 星 。 为 什么 会 有 这 样 的 差异 ? 《第 854 页 ) 

19.12 ”在 一 些 定 位 系统 中 ， 被 跟踪 的 对 象 把 它们 的 标识 符 送 交 基 础 设施 。 解 释 这 如 何 引发 了 对 私密 性 的 关 

注 〈 即 使 这 些 标识 符 是 匿名 的 )? (第 856 页 ) 

19.13 ”许多 传感器 结 点 毛布 一 个 区 域 。 结 点 进行 安全 地 通信 。 解 释 密 钥 分 发 问题 并 概述 一 种 用 于 分 发 密 钼 

的 概率 策略 。 (第 858 页 ) 

19.14 我们 描述 了 几 种 为 安全 的 自发 设备 关联 提供 接收 受 限 通道 的 技术 。 其 中 哪些 技术 也 提供 了 发 送 受 限 

通道 ? (第 861 页 ) 

19.15 ”说 明 如 何 从 一 个 接收 受 限 通 道 构 建 一 个 发 送 受 限 通 道 ， 反 之 亦 然 。 提 示 : 使 用 一 个 连接 到 给 定 通道 

的 可 靠 结 点 。 (第 861 页 ) 

19.16 一 组 智能 空间 只 通过 它们 之 间 的 空间 (例如 走廊 或 广场 ) 相连 。 讨 论 判断 该 中 间 空 间 是 否 可 以 作 

为 一 个 混合 地 带 的 因素 。 《第 865 页 ) 

19.17 ”解释 适应 多 媒体 内 容 时 要 考虑 的 上 下 文 因素 。 《第 866 页 ) 


19. 18 


19. 19 


19. 20 


假设 使 用 无 线 电 在 100 米 距离 发 射 或 接收 1K 比特 数据 所 消耗 的 能 量 可 以 使 设备 执行 300 万 条 指令 。 
设备 可 以 选择 发 送 100K 字 节 的 二 进 制程 序 到 100 米 远 的 计算 服务 器 上 ， 服 务 器 在 运行 时 将 要 执行 
600 亿 条 指令 ， 并 与 设备 交换 10 000 x 1K 比特 的 消息 。 如 果 只 考虑 能 量 ， 设 备 应 该 分 载 计算 还 是 自 
己 执行 计算 呢 ? 假设 在 印 载 情况 下 可 以 忽略 设备 的 计算 。 (第 869 页 ) 
一 个 Cooltown 用 户 将 声音 文件 或 流 式 广播 电台 的 URL 发 送 给 互联 网 电台 。 建 议 对 eSquirt 协议 进行 
修改 ， 使 得 用 户 可 以 使 用 他 们 的 便携 设备 控制 音量 。 提 示 : 考虑 发 射 设 备 应 该 另外 提供 什么 样 的 
数据 。 (第 877 页 ) 
讨论 将 以 下 领域 的 技术 运用 到 移动 和 无 处 不 在 系统 的 适用 性 : 1) 对 等 系统 (第 10 章 ); 2) 协调 
和 协定 协议 〈 第 15 章 ); 3) 复制 (第 18 章 ) 。 (第 879 页 ) 
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分 布 式 多 媒体 系统 


多 媒体 应 用 程序 实时 生成 和 消费 连续 的 数据 流 。 它 们 包含 大 量 的 音频 、 视 频 和 其 他 基于 时 间 的 数 
据 元 素 ， 并 且 及 时 处 理 和 传递 单个 数据 元 素 〈 音 频 采 样 、 视 频 帧 ) 是 非常 重要 的 。 晚 到 的 数据 元 素 是 
没有 价值 的 ， 通 常 将 其 丢弃 。 

一 个 多 媒体 流 的 流 规约 通 澡 包含 如 下 部 分 : 可 以 接受 的 从 源 到 目的 地 传输 数据 的 速度 值 《带宽 ) ， 
每 个 数据 元 素 的 传递 延 时 〈 延 迟 ) 以 及 数据 元 素 的 丢失 或 丢弃 率 。 在 交互 式 应 用 程序 中 ， 延 迟 是 特别 
重要 的 。 如 果 应 用 程序 在 某 些 数据 丢失 后 可 以 重新 同步 数据 ， 那 么 一 些 程度 较 轻 的 多 媒体 数据 的 丢失 
是 可 以 接受 的 。 

为 了 满足 多 媒体 和 其 他 应 用 程序 的 需求 而 进行 的 资源 计划 分 配 和 资源 调度 被 称 为 服务 质量 管理 。 
分 配 处 理 器 处 理 能 力 、 网 络 带宽 和 内 存 容量 (用 来 缓冲 那些 提前 传 到 的 数据 元 素 ) 都 很 重要 。 系 统 根 
据 应 用 对 服务 质量 的 请 求 来 分 配 上 述 资源 。 一 个 成 功 的 QoS 请 求 向 应 用 程序 传递 一 个 QoS 保证 ， 并且 
将 被 请 求 的 资源 预 留 ， 以 便 日 后 进行 调度 。 

本 章 参 考 并 引用 了 Ralf Herrtwich[ 1995] 的 培训 论文 ， 在 此 感谢 他 允许 我 们 使 用 他 的 材料 。 


20.1 简介 


现代 计算 机 可 以 处 理 像 数字 音频 和 视频 这 样 连续 的 、 基 于 时 间 的 数据 流 。 这 种 处 理 能 力促 进 了 分 
布 式 多 媒体 应 用 程序 的 发 展 ， 例 如 ， 网 络 视频 库 、 互 联网 电话 和 视频 会 议 。 这 些 应 用 程序 可 以 在 当前 
通用 的 网 络 和 系统 上 运行 ， 但 是 它们 的 音频 和 视频 质量 经 常 难以 令 人 满意 。 许 多 高 要 求 的 应 用 程序 
(例如 ， 大 规模 的 视频 会 议 、 数字 电视 产品 、 交 互 式 电视 以 及 视频 监视 系统 ) 超出 了 当前 的 网 络 和 分 
布 式 系统 技术 的 能 力 。 
多 媒体 应 用 程序 需要 及 时 地 将 多 媒体 数据 流传 递 到 最 终 用 户 。 音 频 和 视频 流 被 实时 地 生成 和 消费 。 
同时 及 时 地 传递 单个 数据 元 素 (音频 采样 、 视 频 帧 ) 对 于 应 用 程序 的 完整 性 而 言 是 非常 重要 的 。 简 单 
地 说 ， 多 媒体 系统 是 实时 系统 : 它 必 须 按 照 外 部 决定 的 调度 方案 执行 任务 和 传递 结果 。 底 层 系统 达到 
这 些 要 求 的 程度 被 认为 是 应 用 程序 拥有 的 服务 质量 (quality of service, QoS) 。 
尽管 在 多 媒体 系统 出 现 前 实时 系统 的 设计 问题 就 已 经 被 研究 过 ， 并且 已 经 开发 出 许多 成 功 的 实时 系 
统 (参见 ， 例 如 ，Kopetz 和 Verissimo[ 1993 ] ) ， 但 是 它们 都 没有 被 集成 到 一 个 通用 的 操作 系统 和 网 络 中 。 
航空 电子 设备 、 航 空 控 制 、 制 造 过 程控 制 和 电话 交换 这 些 已 有 的 实时 系统 所 执行 的 任务 的 本 质 和 多 媒体 
应 用 程序 执行 的 任务 的 本 质 不 同 。 前 者 通常 处 理 揭 数 据 量 比较 小 ， 并 且 硬性 截止 期 (hard deadline) 相对 
较 少 , 但 是 不 能 满足 这 个 截止 期 就 会 导致 严重 的 甚至 是 灾难 性 的 后 果 。 在 这 种 情况 下 ， 解 决 办 法 是 充分 指 
定 计算 资源 并 为 其 指定 固定 的 调度 计划 ， 以 保证 在 最 坏 的 情况 下 也 能 满足 其 需要 。 这 种 类 型 的 解决 方案 对 桌 
面 计算 机 上 的 大 多 数 互联 网 多 媒体 流 应 用 不 适合 ， 导 致 了 使 用 可 用 资源 的 “尽力 而 为 ”服务 质量 。 
为 了 满足 多 媒体 和 其 他 应 用 程序 的 需要 而 进行 的 有 计划 的 资源 分 配 和 资源 调度 被 称 为 服务 质量 管 
Æ (quality of service management) 。 大 多 数 当前 的 操作 系统 和 网 络 并 没有 包含 支持 多 媒体 应 用 程序 的 有 
保证 的 服务 质量 的 QoS 管理 设施 。 
在 多 媒体 应 用 程序 中 ,特别 是 在 视频 点 播 服务 、 商 业 会 议 应 用 和 远程 医疗 服务 这 样 的 商业 环境 中 ， 
不 能 满足 截止 期 的 后 果 是 严重 的 。 但 是 这 些 多 媒体 应 用 与 其 他 实时 应 用 程序 的 需求 相 比 有 很 大 差别 : 
。 多 媒体 应 用 程序 通常 是 高 度 分 布 的 ， 并 且 在 通用 的 分 布 式 计算 环境 中 使 用 。 因 此 在 用 户 工作 站 
和 服务 器 上 ， 它 们 要 和 其 他 分 布 式 应 用 程序 竞争 网 络 带宽 和 计算 资源 。 

。 多 媒体 应 用 程序 对 资源 的 需求 是 动态 的 。 在 一 个 视频 会 议 系统 中 ， 随 着 参 会 人 数 的 增加 和 减 
少 ， 其 所 需 的 带宽 也 会 增加 和 减少 。 在 每 个 用 户 的 工作 站 上 使 用 的 计算 资源 也 会 变化 ， 这 是 因 
为 需要 显示 的 视频 流 的 数目 会 发 生变 化 。 多 媒体 应 用 程序 可 能 涉及 其 他 变化 的 负载 和 间 欣 性 的 
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负载 。 例 如 ， 一 个 网 络 化 的 多 媒体 讲座 可 能 包括 处 理 器 密集 型 的 仿真 活动 。 

。 用 户 总 希望 平衡 多 媒体 应 用 程序 的 资源 开销 和 其 他 活动 的 资源 开销 。 因 此 ， 为 了 在 参加 会 议 时 
进行 一 个 独立 的 音频 会 话 ， 或 者 在 参加 会 议 时 能 同时 开发 程序 或 运行 一 个 字 处 理 程 序 ， 用 户 会 
希望 减少 会 议 应 用 程序 对 视频 带宽 的 需求 。 

QoS 管理 系统 希望 满足 所 有 这 些 需求 ， 动 态 地 管理 和 分 配 可 用 的 资源 以 应 对 变化 的 需求 和 用 户 的 
优先 级 。 一 个 QoS 管理 系统 必须 管理 用 于 获得 、 处 理 和 传输 多 媒体 数据 流 的 所 有 计算 和 通信 资源 ， 特 
别 是 在 资源 由 多 个 应 用 程序 共享 的 地 方 。 

图 20-1 给 出 了 一 个 典型 的 分 布 式 多 媒体 系统 ， 它 能 支持 多 种 应 用 程序 ， 例 如 桌面 会 议 、 提 供 对 已 保存 
的 视频 片段 的 访问 、 播 放 数字 电视 和 广播 。 其 中 ，QoS 管理 的 资源 包括 网 络 带宽 、 处 理 器 周期 以 及 内 存 能 
力 。 在 使 用 视频 服务 器 时 ， 还 包括 磁盘 带宽 资源 。 我 们 将 采用 资源 带宽 (resource bandwidth) 这 一 通用 术语 
来 表示 用 于 传输 或 处 理 多 媒体 数据 的 任何 硬件 资源 〈 网 络 、 中 央 处 理 器 、 磁 盘子 系统 ) 可 提供 的 能 力 。 


a com as 
i ace = (me, 
/ 7 4. 


视频 数字 
服务 器 TV/ 收 音 机 
服务 器 


图 20-1 一 个 分 布 式 多 媒体 系统 


在 一 个 开放 式 的 分 布 式 系统 中 ， 可 以 在 不 预先 安排 的 情况 下 启动 和 使 用 多 媒体 应 用 程序 。 多 个 应 
用 程序 可 以 同时 存在 于 一 个 网 络 中 ， 甚 至 可 能 同时 存在 于 一 个 工作 站 上 。 因 此 ， 不 管 系统 中 的 资源 带 
宽 和 内 存 容 量 的 总 体质 量 如 何 ， 出 现 了 QoS 管理 需求 。QoS 管理 是 为 了 保证 应 用 程序 能 在 所 需 的 时 间 
内 获得 必要 质量 的 资源 ， 甚 至 当 其 他 应 用 程序 竞争 资源 时 ， 也 能 保证 这 一 点 。 

一 些 多 媒体 应 用 程序 已 经 部 署 在 当今 缺乏 QoS 管理 、 按 尽力 而 为 方式 工作 的 计算 和 网 络 环境 中 。 它 们 
包括 : 

基于 Web 的 多 媒体 : 这 些 应 用 程序 为 访问 音频 和 视频 数据 流 〈 通 过 Web 发 布 的 ) 提供 尽力 而 为 
的 服务 质量 。 当 不 需要 或 很 少 需要 对 不 同 地 点 上 的 数据 流 进 行 同 步 时 ， 它 们 是 成 功 的 。 它 们 的 性 能 随 
网 络 上 带宽 和 延迟 的 变化 而 变化 ， 并 受 限 于 当前 操作 系统 对 实时 资源 调度 的 无 能 。 然 而 ， 诸 如 You- 
Tube、Hulu 和 BBC iPlayer 等 的 应 用 为 在 轻 负 载 的 个 人 计算 机 上 流 化 多 媒体 回放 的 可 行 性 提供 了 一 个 有 
效 证 明 。 它 们 使 用 目的 地 的 巨大 缓冲 区 来 减缓 带宽 和 延迟 的 变化 ， 这 样 它们 可 以 获得 连续 的 、 平 滑 的 
高 质量 音频 和 中 分 辩 率 的 视频 显示 ， 虽 然 从 源 到 达 目 的 地 的 延迟 可 能 会 长 达 数 秒 。 

视频 点 播 服务 : 这 些 服 务 以 数字 形式 提供 视频 信息 ， 它 们 从 大 型 联机 存储 系统 中 检索 数据 ， 并 传 
递 给 最 终 用 户 的 显示 器 。 当 有 足够 网 络 带 宽 可 用 且 视 频 服务 器 和 接受 站 点 是 专用 的 时 候 ， 这 些 服务 是 
成 功 的。 它们 也 在 目的 地 采用 相当 大 的 缓冲 区 。 

高 交互 性 的 应 用 程序 会 提出 更 大 的 问题 。 许 多 多 媒体 应 用 程序 是 合作 性 的 (涉及 多 个 用 户 )， 并 
是 是 同步 的 (需要 紧密 地 协调 用 户 的 活动 );。 它 们 的 应 用 上 下 文 和 场景 各 种 各 样 ， 例 如 : 

。 互联 网 电话 ， 稍 后 详 述 。 

© 一 个 简单 的 涉及 两 个 或 多 个 用 户 的 视频 会 议 ， 每 一 个 用 户 使 用 装备 有 数字 摄像 机 、 麦 克 风 、 声 音 输 

出 设备 和 视频 显示 设备 的 工作 站 。 十 几 年 前 就 出 现 了 支持 简单 远程 视频 会 议 的 应 用 软件 (CUSeeMe 
[Dorcey 1995] ) ， 现 在 有 些 已 经 被 广泛 部 署 了 〔 例 如，Skype、NetMeeting[ www. microsoft. com II] ), 
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iChat AV[ www. apple. com IT]) 。 
e 一 个 音乐 排练 和 演奏 设施 使 音乐 家 可 以 在 不 同 的 地 点 进行 合 练 [ Konstantas et al. 1997] 。 这 是 
一 个 有 特殊 高 要 求 的 多 媒体 应 用 程序 ， 因 为 它 的 同步 限制 很 严格 。 





这 样 的 应 用 程序 有 如 下 需求 : 

低 延 迟 的 通信 : 往返 延迟 为 100 ~300ms， 这 样 在 用 户 之 间 的 交互 才 会 看 起 来 是 同步 的 。 

同步 的 分 布 状态 : 如 果 一 个 用 户 将 视频 停止 在 给 定 的 帧 上 ， 那 么 其 他 用 户 也 应 该 看 到 视频 在 该 帧 
上 停止。 

媒体 同步 : 音乐 合奏 的 所 有 参与 者 都 应 该 几乎 在 同一 时 间 (Konstants 等 [1997] 指出 它 的 同步 需 
要 限制 在 50ms 内 ) 内 听 到 其 演奏 。 独 立 的 声 道 和 视频 流 应 该 保持 “ 音 层 同 步 ”， 例 如 ， 当 用 户 对 于 一 
段 视频 回放 进行 实时 评论 时 ， 或 者 用 户 在 使 用 分 布 式 的 卡拉 OK 伴唱 应 用 时 。 

外 部 同步 : 在 会 议 系统 和 其 他 合作 性 的 应 用 程序 中 ， 可 能 会 存在 其 他 形式 的 活动 数据 ， 例 如 ， 计 
算 机 生成 的 动画 、CAD 数据 、 电 子 白 板 以 及 共享 的 文档 。 对 这 些 数据 的 更 新 必须 是 分 布 式 的 ， 并 且 还 
必须 近似 地 和 基于 时 间 的 多 媒体 数据 流 同 步 。 

这 些 应 用 程序 只 能 在 包含 严格 的 QoS 管理 方案 的 系统 上 才能 成 功 地 运行 。 








互联 网 电话 -VoIP 

互联 网 并 不 是 为 实时 交互 应 用 (例如 电话 ) 设计 的 , 但 是 随 着 互联 网 核心 组 件 一 一 主干 网 的 速 
度 达 到 10 ~40Gbps， 而 且 连 接 主干 网 的 路 由 器 也 有 相当 强 的 性 能 一 一 核心 组 件 的 功能 和 性 能 增强 ， 
互联 网 已 经 可 能 为 实时 交互 应 用 提供 服务 。 互 联网 核心 组 件 经 常 运行 在 较 低 的 负载 下 ( < 10% 带宽 
利用 率 ) ， 而 且 很 少 因 资源 竞争 造成 P 传输 延迟 或 丢失 。 

这 使 得 可 以 在 公共 互联 网 上 构建 电话 应 用 : 将 数字 化 的 声音 采样 流 作为 没有 服务 质量 特殊 要 求 
的 UDP 分 组 ,将 其 从 声音 源 传输 至 目的 地 。Voice- over-IP(VoIP) 应 用 ， 例 如 ，Skype 和 Vonage, 
就 是 依赖 这 项 技术 ; 即时 通信 应 用 (例如 ，AOL Instant Messaging, Apple iChat AV 和 Microsoft Net- 
Meeting) 中 的 声音 功能 ， 也 是 依赖 此 项 技术 。 

当然 ， 那 些 都 是 实时 交互 应 用 ， 因 而 延迟 性 仍然 是 一 个 很 重要 的 问题 。 正 如 在 第 3 章 讨论 的 ， 
IP 分 组 在 经 过 每 一 个 路 由 器 时 ， 都 不 可 避免 地 发 生 延 迟 。 在 路 径 较 长 的 情况 下 ， 这 些 延 迟 的 积累 
很 容易 超过 150ms ， 于 是 用 户 在 对 话 交 互 中 ， 便 可 以 察觉 这 种 延迟 。 正 是 由 于 这 个 原因 ， 长 距离 的 
(尤其 是 洲际 间 的 ) 互联 网 电话 服务 产生 的 延迟 会 比 使 用 常规 电话 网 络 的 电话 服务 的 延迟 大 得 多 。 

然而 ， 更 多 的 声音 流量 仍然 是 通过 互联 网 进行 的 ， 而 且 其 与 传统 电话 网 的 集成 正在 进行 中 。 会 
话 初 始 化 协议 (SIP, 在 RFC 2543 HX [Handley et al. 1999 ] ) 是 一 个 在 互联 网 上 建立 声音 电话 
(以 及 其 他 服务 ， 例 如 即时 通信 ) 的 应 用 层 协议 。 在 世界 各 地 ， 都 有 连接 常规 电话 网 络 的 网 关 ， 它 
们 允许 从 连接 在 互联 网 上 的 设备 发 出 的 呼叫 ， 通 过 互联 网 的 传输 ， 到 达 常 规 电话 或 个 人 电脑 。 

20. 2 节 我 们 将 回顾 多 媒体 数据 的 特征 。20. 3 节 将 介绍 为 了 实现 QoS 管理 而 采取 的 匮乏 资源 的 分 配 
方法 。20. 4 节 讨 论 了 资源 调度 的 方法 。20. 5 节 讨 论 在 多 媒体 系统 中 优化 数据 流 的 方法 。20. 6 节 描 述 了 
三 个 多 媒体 系统 的 实例 研究 : Tiger 视频 文件 服务 器 ， 这 是 一 个 低 开销 、 可 伸缩 的 用 于 将 存储 的 视频 流 
并 发 地 传递 到 大 量 客户 的 系统 ; BitTorrent 是 一 个 P2P 的 文件 共享 应 用 的 例子 ， 支 持 大 量 多 媒体 文件 的 
FR; CMU 的 端 系统 多 播 是 一 个 支持 在 互联 网 上 广播 视频 内 容 的 系统 的 例子 。 


20.2 多 媒体 数据 的 特征 
我 们 已 经 说 过 ， 视 频 和 音频 数据 是 连续 的 和 基于 时 间 的 。 我 们 怎样 更 精确 地 定义 其 特征 呢 ?“ 连 续 
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性 ”一 词 表示 的 是 从 用 户 观点 看 到 的 数据 特征 。 连 续 的 媒体 在 内 部 是 由 一 系列 离散 值 组 成 的 ， 后 到 达 
的 值 会 替换 先 到 达 的 信 。 例 如 ， 为 了 给 出 一 个 电视 质量 的 运动 场景 ， 其 图 像 阵列 值 每 秒 要 更 新 25 次 ; 
为 了 传播 电话 质量 的 语音 信息 ， 其 声音 振幅 值 每 秒 要 更 新 8000 次 。 

因为 音频 和 视频 流 中 的 定时 数据 元 素 定义 了 流 的 语义 或 “内 容 " ， 所 以 多 媒体 流 被 称 为 是 基于 时 
间 (或 等 时 ) 的 。 由 于 数据 值 被 播放 和 记录 的 时 间 会 影响 数据 的 有 效 性 ， 因 此 ， 当 支持 多 媒体 应 用 程 
序 的 系统 处 理 连 续 的 数据 时 ， 它 需要 保持 数据 的 时 序 。 

多 媒体 流 的 数据 量 通常 很 大 ， 因 此 ， 支 持 多 媒体 应 用 程序 的 系统 必须 在 数据 移动 方面 比 传统 的 系 
统 有 更 大 的 吞吐 量 。 图 20-2 给 出 了 一 些 常 用 的 数据 速率 和 帧 /采样 频率 。 我 们 注意 到 ， 其 中 有 些 所 需 
的 资源 带宽 比较 大 ， 特 别 是 为 了 获得 较 好 的 视频 质量 。 例 如 ， 一 个 未 压缩 的 标准 的 TV 视频 流 需 要 
120Mbps 以 上 的 带宽 ， 它 超过 了 100Mbps 以 太 网 所 能 提供 的 带宽 。 而 对 标准 TV 视频 数据 流 的 每 一 个 数 
据 帧 进行 复制 和 简单 转换 的 程序 要 消耗 一 个 PC CPU 处 理 能 力 的 10% 以 下 。 在 处 理 高 清 电视 数据 流 ， 
这 个 数字 会 更 高 ， 并 且 许多 像 视 频 会 议 这 样 的 应 用 程序 需要 同时 处 理 多 个 视频 和 音频 流 。 因 此 必须 使 
用 数据 压缩 技术 来 解决 这 个 问题 ， 尽 管 对 压缩 流 完成 诸如 视频 混合 和 编辑 等 转换 工作 是 困难 的 。 


”数据 速率 
近似值 


















电话 交谈 64kbps 8 比特 8000/#b 
CD 质量 的 声音 1.4Mbps 16 比 特 44 000/# 
标准 TV 视频 120Mbps 最 高 640x 480 24/75 
《未 压缩 ) 像素 x 16 比 特 
标准 TV 视频 1.5Mbps 可 变 的 24/ 秒 
(用 MPEG-1 压 缩 ) 
Dv 1000~3000Mbps 最 高 1920 x 1080 24~60/ 秒 
(未 压缩 ) 像素 x24 比特 
HDTV 视 频 6~20Mbps 可 变 的 24 一 60/ 秒 





(用 MPEG-2 压 缩 ) 
20-2 典型 多 媒体 数据 流 的 特征 


压缩 可 以 将 对 带宽 的 需求 减少 到 原来 的 1/100 ~ /10， 但 它 不 会 影响 连续 数据 的 时 序 需求 。 为 了 设 
计 出 高 效 、 通 用 的 多 媒体 数据 流 表示 和 压缩 方法 ， 人 们 进行 了 深入 的 研究 ， 并 定义 了 许多 标准 。 这 些 
工作 的 成 果 包 括 各 种 数据 压缩 格式 ， 例 如 为 图 像 数据 设计 的 GIF, TIFF 和 JPEG 标准 以 及 为 视频 序列 设 
计 的 MPEG-1、MPEG-2 和 MPEG-4 标准 。 

尽管 使 用 压缩 的 视频 和 音频 数据 减少 了 对 通信 网 络 的 带宽 需求 ， 但 它 增加 了 在 源 端 和 目的 端 处 
理 资 源 的 负担 。 这 个 需求 的 满足 经 常 需要 使 用 特殊 的 硬件 来 处 理 和 发 送 视频 和 音频 信息 ， 即 个 人 计 
算 机 的 视频 卡 上 所 包含 的 视频 和 音频 的 编码 /解码 器 〈eodecs) 。 但 是 随 着 个 人 计算 机 和 多 处 理 器 体 
系 结构 功能 的 增强 ， 系 统 可 以 用 软件 编码 和 解码 过 滤器 来 完成 上 述 功能 。 这 种 解决 方法 对 应 用 特定 
的 数据 格式 、 特 殊 目 的 的 应 用 逻辑 以 及 同时 处 理 多 个 媒体 流 提 供 了 更 好 的 支持 ， 所 以 提供 了 更 大 的 
灵活 性 。 

用 于 MPEG 视频 格式 的 压缩 方法 是 非 对 称 的 ， 包 括 一 个 复杂 的 压缩 算法 和 一 个 相对 简单 的 解压 算 
法 。 这 一 点 在 桌面 会 议 中 是 有 用 的 ， 因 为 在 桌面 会 议 中 ， 通 常 是 由 硬件 编码 器 来 执行 压缩 ， 而 由 软件 
对 到 达 每 个 用 户 计算 机 的 多 个 数据 流 解压 ， 这 样 可 以 不 必 考 虑 每 个 用 户 计算 机 上 的 解码 器 的 个 数 ， 而 
会 议 的 参与 者 数目 可 以 动态 地 变化 。 


20.3 ”服务 质量 管理 
当 多 媒体 应 用 程序 运行 在 由 个 人 计算 机 组 成 的 网 络 上 时 ， 它 们 需要 对 应 用 程序 所 在 的 工作 站 〈 处 
理 器 周期 、 主 线 周期 、 缓 冲 区 容量 ) 和 网 络 〈 物 理 传输 连接 、 交 换 机 、 网 关 ) 上 的 资源 进行 竞争 。 工 
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作 站 和 网 络 可 能 同时 支持 多 个 多 媒体 程序 和 传统 应 用 程序 。 在 多 媒体 应 用 程序 和 传统 应 用 程序 之 间 有 
竞争 ， 在 不 同 的 多 媒体 应 用 程序 之 间 其 至 在 单个 应 用 程序 的 多 媒体 数据 流 之 间 都 可 能 有 竞争 。 887 
在 多 任务 操作 系统 和 共享 网 络 中 ， 用 于 不 同 任务 的 物理 资源 是 可 以 并 发 使 用 的 。 在 多 任务 操作 系 
统 中 ， 中 央 处 理 器 执行 每 一 个 任务 〈 或 进程 ) ， 或 者 按 轮流 方式 ， 或 者 在 当前 竞争 处 理 器 资源 的 任务 

中 采用 某 种 以 尽力 而 为 为 基础 的 处 理 资源 的 调度 方案 。 

网 络 用 来 使 不 同 来 源 的 消息 交织 在 一 起 传输 ， 它 允许 多 个 虚拟 通信 通道 存在 于 同一 个 物理 通道 上 。 
以 太 网 这 一 主要 的 局 域 网 技术 以 尽力 而 为 的 方式 来 管理 共享 的 传输 介质 。 当 介质 空闲 时 ， 任 何 结 点 都 
可 以 使 用 它 。 但 是 可 能 会 发 生 包 冲 突 ， 当 发 生 冲突 时 ， 结 点 会 等 待 随机 的 一 段 时 间 ， 然 后 重 发 包 ， 以 
便 防 止 冲突 重复 发 生 。 当 网 络 负载 很 重 时 ， 很 容易 发 生 冲 突 ， 这 种 方案 在 这 种 情况 下 不 能 提供 关于 带 
宽 和 延迟 的 任何 保证 。 

这 些 资源 分 配方 案 的 主要 特点 是 : 当 对 资源 的 需求 增加 时 ， 它 们 将 资源 更 稀疏 地 分 配给 每 个 竞争 
资源 的 任务 。 共 享 处 理 器 周期 和 网 络 带宽 的 轮转 方法 和 其 他 尽力 而 为 方法 都 不 能 满足 多 媒体 应 用 程序 
的 需求 。 显 而 易 见 ， 及 时 地 处 理 和 传输 多 媒体 流 对 它们 而 言 是 非常 关键 的 。 晚 到 的 数据 传递 是 没有 价 
值 的 。 为 了 实现 及 时 传递 ， 应 用 程序 要 保证 在 需要 的 时 候 将 被 分 配 到 必要 的 资源 。 

为 了 提供 这 一 保障 而 进行 的 资源 管理 和 分 配 被 称 为 服务 质量 管理 (quality of service management) 。 
图 20-3 显示 了 运行 在 两 个 个 人 计算 机 上 一 个 简单 的 多 媒体 会 议 应 用 程序 的 基础 设施 组 件 ,使 用 了 软件 B88] 
方式 进行 的 数据 压缩 和 格式 转换 。 白 色 方 框 代表 其 资源 需求 会 影响 应 用 程序 服务 质量 的 软件 组 件 。 
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网 络 连 接 视频 
视频 文件 系统 存储 









Window 系 统 





一 > :多 媒体 数据 流 

白色 方 框 表示 媒体 处 理 组 件 ， 其 中 多 数 是 用 软件 实现 的 ， 包 括 : 
codec: 编 码 /解码 过 滤器 

mixer 声 音 合成 组 件 


图 20-3 多 媒体 应 用 程序 典型 的 底层 组 件 


这 个 图 给 出 了 多 媒体 软件 最 常用 的 抽象 体系 结构 ， 其 中 连续 流动 的 媒体 数据 元 素 流 CL, E 
频 采 样 ) 被 一 系列 进程 处 理 ， 并 通过 进程 间 的 连接 在 进程 间 传输 。 这 些 进 程 产 生 、 传 输 和 消费 连续 的 
多 媒体 数据 流 。 这 些 进 程 的 连接 使 得 从 媒体 元 素 的 源 端 按 顺序 连 到 目标 端 ， 在 目标 端 ， 多 媒体 数据 被 
显示 或 者 被 消费 。 进 程 间 的 连接 可 以 由 网 络 连接 实现 ， 当 源 和 目标 端的 进程 位 于 同一 台 计 算 机 上 时 ， 
这 些 连 接 也 可 以 由 内 存 内 部 传输 实现 。 当 多 媒体 数据 元 素 按时 地 到 达 目 标 端 时 ， 系 统 必 须 划分 出 足够 
的 CPU 时 间 、 内 存 容 量 和 网 络 带 宽 给 处 理 这 项 任务 的 进程 。 同 时 ， 系 统 必 须 调度 这 些 进 程 ， 使 它们 能 
充分 地 使 用 资源 以 便 能 按时 向 下 一 个 进程 传递 多 媒体 流 中 的 数据 元 素 。 

在 图 20-4 中 ， 我们 列 出 了 图 20-3 中 主要 的 软件 组 件 和 网 络 连接 所 需要 的 资源 〈 两 幅 图 中 的 字母 
是 相对 应 的 ) 。 显 然 ， 需 要 有 一 个 系统 组 件 负责 分 配 和 调度 这 些 资源 ， 这 样 才能 保证 所 要 求 的 资源 。 我 
们 把 这 一 组 件 称 为 服务 质量 管理 器 (quality of service manager) 。 
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组 件 带宽 延迟 BRE 所 需要 的 资源 
| 摄像 机 输出 : 10 帧 / 秒 ， 原 始 闹 频数 据 — = 
640x480x16 比 特 ne , 
AOne 输入 ;10 帧 / 秒 ， 原 始 视频 交互 的 低 ei 
输出 : MPEG-1 数 据 流 10MB RAM 
B Mixer 输入 : 2x44kbps 音 频 交互 的 很 低 每 100ms 需 CPU1lms; 
输出 : 1x44kbps 音 频 1MB RAM 
H 和 窗口 系统 输入 : 可 变 交互 的 低 每 100ms 需 CPUSms; 
输出 : 50 帧 / 秒 帧 缓冲 区 5MB RAM 
K 网 络 连 接 输入 /输出 : MPEG-1 数 据 流 ， 交互 的 低 1.5Mbps， 低 丢失 率 的 
大 约 1.5Mbps 数据 流 协议 
L 网 络 连 接 交互 的 很 低 44kbps， 非 常 低 丢失 率 
输入 输出: 44kbps 音 频 的 数据 流 协议 








图 20-4 图 20-3 中 的 应 用 程序 组 件 的 QoS 规约 


图 20-5 以 流程 图 的 形式 说 明了 QoS 管理 器 的 职责 。 在 下 面 的 两 小 节 中 ， 我 们 将 介绍 QoS 管理 器 的 
两 个 主要 任务 : 



























































许可 控制 QoS 协商 
应 用 程序 组 件 向 QoS 管理 器 
说 明 QoS 需求 
| 流 的 规约 
QoS 管理 器 将 请 求 与 可 用 资源 
进行 对 比 ， 是 否 满足 ? 
a & ee 
| 预 留 被 请 求 的 资源 | | 和 应 用 程序 协商 减少 资源 供应 同意 ? 
mac | Yes No 
， | 
人 允许 应 用 程序 处 理 | 
| 不 允许 应 用 程序 运行 
AY i S 
按 资源 契约 运行 应 用 程序 | 一 yh 














图 20-5 QoS 管理 器 的 任务 


服务 质量 协商 : 应 用 程序 向 QoS 管理 器 提出 自己 的 资源 需求 。QoS 管理 器 根据 包含 可 用 资源 和 当 
前 被 使 用 资源 信息 的 数据 库 来 评估 满足 这 些 需求 的 可 行 性 ， 然 后 它 给 应 用 程序 一 个 肯定 或 否定 的 答复 。 
如 果 答 复 是 否定 的 ， 那 么 应 用 程序 会 被 重新 配置 以 便 使 用 更 小 的 资源 ， 然 后 再 重复 以 上 过 程 。 

许可 控制 : 如 果 资 源 评估 的 结果 是 肯定 的 ， 则 预 留 被 请 求 的 资源 ， 同 时 应 用 程序 获得 一 个 资源 契 
% (resource contract) ， 用 于 说 明 被 预 留 使 用 的 资源 。 该 契约 包含 了 一 个 时 间 限 制 。 然 后 ， 应 用 程序 就 
可 以 运行 了 。 如 果 应 用 程序 的 资源 需求 发 生 了 变化 ， 它 必须 通知 QoS 管理 器 。 如 果 资 源 需 求 减 小 了 ， 
被 释放 的 资源 被 加 入 到 数据 库 中 作为 可 用 资源 ; 如 果 资 源 需 求 增 加 了 ， 便 需要 进行 新 一 轮 的 协商 和 许 
可 控制 。 

在 本 节 的 剩余 部 分 ， 我 们 将 进一步 描述 执行 这 些 任务 所 使 用 的 技术 。 当 然 ， 当 一 个 应 用 程序 运行 
时 ， 它 需要 细 粒 度 的 资源 调度 〈 如 处 理 器 时 间 和 网 络 带宽 ) ， 以 保证 实时 进程 能 按时 接收 到 已 分 配 的 
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资源 。20. 4 节 将 介绍 这 些 技术 。 


20.3.1 服务 质量 协商 


为 了 在 应 用 程序 和 底层 系统 之 间 进 行 QoS 协商 ， 应 用 程序 必须 向 QoS 管理 器 说 明 自 己 的 QoS FER. 
这 是 通过 传递 一 个 参数 集 实 现 的 。 当 处 理 和 传输 多 媒体 流 时 ， 有 三 个 参数 是 首要 关心 的 ， 它 们 是 带宽 、 
BER AE KE. | 
带宽 ， 多 媒体 流 或 组 件 的 带宽 是 指数 据 流 过 的 速度 。 
延迟 : 延迟 是 指 单个 数据 元 素 通 过 流 从 源 端 移动 到 目的 端的 所 需 的 时 间 。 当 系统 中 的 数据 量 大 小 
以 及 系统 负载 中 的 其 他 特征 变化 时 ,延迟 也 会 发 生变 化 。 这 种 变化 被 称 为 拉动 (jitter) ， 拌 动 是 由 延迟 
引发 的 第 一 个 问题 。 
ZRF; 因为 迟到 的 多 媒体 数据 是 没有 价值 的 ， 当 不 可 能 在 预定 的 数据 传递 时 间 之 前 传输 到 目的 
端 时 ， 数 据 元 素 将 被 丢掉 。 在 管理 良好 的 QoS 环境 中 ， 这 种 情况 应 该 是 不 会 发 生 的 ， 但 是 因为 前 面 所 
说 的 原因 ， 现 在 很 少 有 这 样 良 好 的 环境 。 而 且 ， 保 证 每 个 数据 元 素 都 能 按时 传递 所 耗费 的 资源 代价 经 
常 是 不 可 接受 的 一 一 为 了 应 付 偶 尔 的 高 峰 ， 可 能 要 预 留 比 平均 需要 的 资源 多 得 多 的 资源 。 所 采用 的 变 
通 的 方法 是 接受 一 定 比 例 的 数据 丢失 ， 即 丢失 的 视频 帧 或 音频 采样 。 可 接受 的 比率 通常 很 低 很 少 
高 于 1% ， 并且 在 质量 关键 的 应 用 程序 中 这 个 数字 会 更 低 。 
这 三 个 参数 可 以 用 来 : 
1) 描述 特定 环境 中 多 媒体 流 的 特点 。 例 如 ， 一 个 视频 流 可 能 需要 1. 5Mbps 的 平均 带宽 ， 并 且 因 为 
用 于 会 议 应 用 程序 ， 为 了 避免 会 话 间隔 ， 传 输 延 迟 最 多 为 150ms。 在 丢失 率 小 于 1% 时 ， 目的 端的 解压 
算法 仍 可 以 生成 可 以 接受 的 图 像 。 
2) 描述 用 于 传输 数据 流 的 资源 的 容量 。 例 如 ， 一 个 网 络 可 以 提供 带宽 为 64kbps 的 连接 ， 网 络 的 
排队 算法 可 以 保证 延迟 小 于 10ms ， 而 传输 系统 可 以 保证 丢失 率 小 于 1/10' 。 这 些 参 数 相互 间 是 有 联系 
的 ， 例 如 ， 
© 现代 系统 的 丢失 率 很 少 与 因为 噪声 、 失 效 等 引起 的 实际 的 比特 错误 相关 ， 而 是 与 缓冲 区 溢出 和 
与 时 间 相 关 的 数据 到 达 太 上 晚 有 关 。 因 此 ， 带 宽 越 大 和 延迟 越 低 ， 技 失 率 就 可 能 越 小 。 

。 与 负载 相 比 ， 资 源 所 占 的 总 带宽 越 小 ， 就 有 越 多 的 信息 在 传输 端 聚集 ， 因 此 存储 这 些 信 息 的 组 
冲 区 就 应 越 大 以 避免 信息 丢失 。 组 冲 区 变 得 越 大 ， 就 可 能 有 更 多 的 信息 等 待 被 服务 ， 因 此 ， 延 
退会 变 得 更 大 。 

为 数据 流 设 定 QoS 参数 QoS 参数 的 值 可 以 显 式 地 给 出 (例如 ， 图 20-3 中 摄像 机 输出 流 需要 带 
宽 : 50Mbps， 延 迟 150ms, FA: 在 10 帧 中 少 于 1 W), ， 也 可 以 隐 式 地 给 出 〈 例 如 ， 对 于 网 络 连 
EK, 输入 流 的 带宽 是 对 摄像 机 输出 流 采 用 MPEG-1 压缩 而 得 到 的 结果 ) 。 

但 是 更 常见 的 情况 是 我 们 需要 指定 一 个 值 和 一 个 允许 变化 的 范围 。 这 里 我 们 将 讨论 一 下 对 每 个 参 
数 的 需求 : 

带宽 : 大 多 数 视频 压缩 技术 根据 原始 视频 数据 的 内 容 不同 ， 生 成 的 帧 数据 流 的 大 小 也 不 同 。 在 
MPEG 中 ， 平 均 压 缩 比 在 1: 50 到 1: 100 之 间 ， 但 是 压缩 比 会 依赖 内 容 而 动态 变化 。 例 如 ， 在 内 容 变化 
很 快 时 ， 所 需要 的 带宽 会 很 高 。 因 此 ， 经 常 以 最 大 值 、 平 均值 和 最 小 值 三 种 类 型 的 值 来 表示 QoS BR, 
选择 哪 种 值 依赖 于 当前 使 用 哪 种 QoS 管理 制度 。 

在 带宽 规约 中 出 现 的 另 一 个 问题 是 数据 爆发 《burstiness) 特点 。 假 设 有 三 个 1Mbps 的 数据 流 。 其 
中 一 个 流 每 秒 传输 一 个 1M 比特 的 帧 ， 第 二 个 流 是 一 个 传输 计算 机 生成 的 动画 元 素 的 异步 数据 流 ， 平 
均 带 宽 为 IMbps， 第 三 个 流 每 微 秒 发 送 100 比特 的 声音 采样 信号 。 尽 管 这 三 个 数据 流 都 需要 同样 的 带 
宽 ， 它们 的 流量 模式 差别 很 大 。 

一 种 解决 不 规则 数据 爆发 的 方法 是 在 传输 率 和 数据 帧 大 小 之 外 定义 爆发 参数 。 这 个 爆发 参数 指定 可 能 
提前 到 达 〈 也 就 是 说 ， 在 它们 根据 常规 到 达 率 应 该 到 达 之 前 ) 的 媒体 元 素 的 最 大 数目 。Anderson[1993] 使 
用 的 线性 限制 的 到 达 处 理 (linear- bounded arrival processes, LBAP) 模型 将 任 一 时 间 间 隔 上 内 的 数据 流 最 大 
消息 数目 定义 为 亦 +8， 其 中 眉 是 传输 速率 ，B 为 数据 悍 发 的 最 大 大 小 。 使 用 这 种 模型 的 优点 是 它 能 很 好 地 
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反映 多 媒体 数据 源 的 特点 : 从 磁盘 上 读 出 的 多 媒体 数据 通常 以 大 块 方式 传递 ， 而 且 从 网 络 接收 的 数据 通常 是 
以 小 数据 包 序列 的 形式 到 达 。 在 这 种 情况 下 ， 爆 发 参数 提供 了 避 锡 丢失 而 需要 的 缓冲 区 空间 大 小 。 

延迟 :多 媒体 中 的 一 些 时 序 需 求 来 源 于 数据 流 本 身 ， 如 果 不 能 以 和 流 中 数据 帧 到 达 同 样 的 速度 处 
理 数据 帧 ， 那 么 等 待 处 理 的 数据 会 越 来 越 多 ， 可 能 会 超出 缓冲 区 的 容量 。 如 果 要 避免 这 个 问题 ， 数 据 
帧 洁 留 在 绥 冲 区 的 时 间 必须 平均 不 能 高 于 1/R， 其 中 R 为 数据 流 中 帧 的 传输 率 。 如 果 发 生 了 数据 堆积 ， 
除了 处 理 和 传播 时 间 之 外 ， 积 压 数据 的 数目 和 大 小 也 会 影响 数据 流 最 大 的 端 到 端 延 迟 值 。 

另 一 种 延迟 需求 来 源 于 应 用 程序 环境 。 在 会 议 应 用 程序 中 ， 为 了 达到 参与 者 之 间 的 即时 交互 ， 数 
据 流 端 到 端的 绝对 延迟 应 不 超过 150ms， 从 而 避免 会 谈 中 人 的 不 良 感觉 问题 ， 而 对 重播 存储 的 视频 数 
据 ， 为 了 保证 “暂停 ”和 “停止 ”这 样 的 命令 发 出 后 能 及 时 得 到 响应 ， 最 大 的 延迟 应 在 500ms 左右 。 

关系 到 多 媒体 消息 传递 时 间 的 第 三 种 情况 是 择 动 一 一 传递 两 个 相 邻 帧 的 时 间 间 隔 的 变化 。 尽 管 大 
多 数 多 媒体 设备 都 确保 它们 按 正常 速度 没有 变化 地 给 出 数据 ， 但 软件 (例如 ， 处 理 视频 帧 的 软件 解码 
器 ) 需要 采取 额外 的 方法 来 避免 样 动 。 本 质 上 ， 使 用 缓存 可 以 解决 拌 动 问题 ,但 是 拌 动 消除 的 范围 是 
有 限 的 ， 这 是 因为 端 到 端的 整体 延迟 是 受 上 面 提 到 的 种 种 考虑 约束 的 ， 所 以 媒体 序列 的 回放 也 要 求 媒 
体 元 素 在 固定 的 截止 期 之 前 到 达 。 

SRB: 丢失 率 是 最 难 指定 的 QoS 参数 。 通 常 ， 丢 失 率 值 来 源 于 对 缓冲 区 溢出 和 延迟 消息 的 概率 
统计 。 这 种 计算 要 么 基于 最 坏 情 形 的 假设 ， 要 么 基于 标准 分 布 。 这 两 种 方法 都 不 能 很 好 地 与 实际 情况 
相 匹配 。 但 是 ， 必 须 用 丢失 率 规约 来 限定 带宽 和 延迟 参数 : 两 个 应 用 程序 可 能 拥有 同样 的 带宽 和 延迟 
特征 ， 但 如 果 一 个 应 用 程序 丢失 率 为 20% ， 而 另 一 个 应 用 程序 丢失 率 为 百 万 分 之 一 ， 那 么 它们 看 上 去 
差别 将 会 很 大 。 

在 带宽 参数 规约 中 ， 不 仅仅 是 在 一 段 时 间 内 发 送 的 数据 总 量 很 重要 ， 在 这 段 时 间 间 隔 内 数据 的 分 
布 也 很 重要 。 与 带宽 参数 规约 一 样 ， 丢 失 率 参数 规约 需要 确定 达到 某 个 程度 的 数据 丢失 的 时 间 间 隔 。 
特别 的 ， 在 无 穷 长 时 间 间 隔 内 的 丢失 率 是 没有 用 的 ， 这 是 因为 在 一 个 短期 内 丢失 的 数据 可 能 会 明显 超 
过 长 期 的 丢失 率 。 

流量 调整 ”流量 调整 是 用 来 描述 使 用 输出 缓冲 来 使 数据 元 素 流 平滑 这 一 方法 的 术语 。 多 媒体 流 的 
带宽 参数 通常 提供 在 数据 流传 输 时 对 实际 流量 模式 的 理想 化 近似 。 实 际 的 流量 模式 越 匹配 这 一 描述 ， 
系统 就 能 越 好 地 处 理 流量 ， 特 别 是 在 系统 使 用 为 周期 性 请 求 设计 的 调度 方法 时 ， 这 一 特点 就 会 越 明显 。 

刻画 带宽 变化 的 LBAP 模型 要 求 对 多 媒体 流 的 爆发 进行 管理 。 通 过 在 源 端 加 入 一 个 缓冲 区 并 定义 
数据 元 素 离 开 缓冲 区 的 方法 ， 该 模型 可 管理 任何 | | 
数据 流 。 漏 桶 图 (图 20- 6a) 形象 化 地 说 明了 这 MS) NN 
种 方法 : 可 以 向 这 个 桶 中 注水 ， 直 到 它 满 了 为 止 ， G 
MERR RN, KT ER. W 
桶 算法 保证 数据 流 的 传输 速率 不 超过 R。 缓 冲 区 
B 的 大 小 定义 了 在 没有 丢失 元 素 的 情况 下 数据 流 
能 遭受 的 最 大 爆发 值 。B 也 决定 了 数据 元 素 停留 





令 牌 生成 器 
m 








在 桶 中 的 时 间 的 长 短 范围 。 | =m 
漏 桶 算法 完全 消除 了 数据 爆发 。 只 要 带宽 在 任 a 国画 

意 时 间 间 隔 内 都 是 有 界 的， 以 上 的 消除 就 不 总 是 必 

要 的 。 令 牌 桶 算法 通过 在 数据 流 空闲 一 段 时 间 后 多 8? A b> 令 牌 本 

许 较 大 的 数据 爆发 来 做 到 这 一 点 (图 20-6b) 。 它 是 图 20-6 ”流量 调整 算法 


漏 桶 算法 的 变种 ， 其 中 发 送 数据 的 令 牌 以 固定 的 速率 生成。 令 牌 被 收集 到 一 个 大 小 为 B 的 桶 中 。 只 有 当 
桶 里 至 少 有 8 个 令 牌 时 ， 大 小 为 5 的 数据 才能 被 发 送 。 然 后 ， 发 送 程 序 删除 这 5 个 令 牌 。 令 牌 桶 算法 保证 在 
任 一 时 间 间 隔 i 内 数据 发 送 量 不 超过 Re +B。 因 此 ， 它 是 LBAP 模型 的 一 个 实现 。 

在 令 牌 桶 系统 中 ， 仅 当 数 据 流 空 闸 了 一 段 时 间 后 ， 大 小 为 B 的 传输 高 峰 才 会 出 现 。 为 了 避免 这 些 
数据 爆发 ， 可 以 在 令 牌 桶 后 面 放置 一 个 简单 的 漏 桶 。 为 了 使 这 种 配置 方案 起 作用 ， 这 个 桶 的 流动 速率 
下 必须 远大 于 R。 它 的 唯一 目的 是 分 解 大 的 数据 爆发 。 


第 20 章 ”分布 式 多 媒体 系统 + 533 


流 规约 QoS 参数 的 集合 通常 称 为 流 规约 (fow specifieation， 或 简称 为 flow spec) 。 现 有 的 几 个 流 
规约 ， 它 们 都 比较 相似 。 在 互联 网 RFC 1363[ Partridge 1992] 中 ， 流 协议 版 本 


规约 被 定义 为 11 个 16 位 的 数字 值 (图 20-7) ， 它 以 下 面 的 方式 反映 最 大 传输 单元 
上 面 讨论 的 QoS 参数 ， 令 牌 桶 速率 
。 最 大 传输 单元 和 最 大 传输 率 决定 数据 流 所 需要 的 最 大 带宽 。 | SMRAD 
。 令 牌 桶 大 小 和 速率 决定 数据 的 爆发 量 。 最 大 传输 速率 
。 通过 应 用 程序 可 以 发 现 的 最 小 延迟 〈 因 为 我 们 希望 避免 对 短 IB: -一 一 一 一 
延迟 的 过 度 优化 ) 和 其 可 以 接受 的 最 大 抖动 来 描述 延迟 TUNERE 
特性 。 ERR: ”可 以 被 发 觉 的 爆发 丢失 
。 通过 在 某 一 时 间 间 隔 内 可 接受 的 丢失 总 数 和 最 大 可 接受 的 连 ssia 
续 丢失 数目 来 定义 丢失 特征 。 服务 质量 保证 


还 有 许多 表示 每 个 参数 组 的 方法 。 在 SRP[ Anderson et al. 1990 ] 

中 ， 通 过 一 个 最 大 超前 工作 参数 来 给 出 数据 流 的 爆发 量 ， 该 参数 定义 。 图 20-7 RPC 1363 的 流 规约 
了 在 任 一 时 间 点 上 数据 流 提前 到 达 的 消息 的 数量 。Ferari 和 Verma[ 1990] 给 出 了 最 坏 情况 下 延迟 的 
界 ， 如 果 系 统 不 能 保证 在 这 一 时 间 间 隔 内 传输 数据 ， 那 么 对 应 用 程序 来 说 这 一 数据 传输 是 没有 用 的 。 
在 RFC 1190 的 ST-I 协 议 规约 [Topoleic 1990] F, 丢失 率 表示 为 每 一 个 包 被 丢失 的 概率 。 

上 面 的 例子 提供 了 QoS 值 的 连续 范围 。 如 果 要 支持 的 应 用 程序 和 数据 流 是 有 限 的 ， 定 义 一 个 离散 
的 QoS 类 集合 就 可 能 足够 了 ， 例 如 ， 电 话 质量 和 高 保 真 音频 ， 实 况 和 回放 视频 ， 等 等 。 所 有 系统 组 件 
必须 隐 式 地 知道 所 有 这 些 类 的 需求 。 对 菜 一 混合 流量 情况 ， 系 统 也 可 以 被 配置 。 

协商 过 程 ” 对 分 布 式 多 媒体 应 用 程序 而 言 ， 一 个 数据 流 的 组 件 很 可 能 位 于 几 个 结 点 上 。 在 每 个 结 
点 上 有 一 个 QoS 管理 器 。 进 行 QoS 协商 的 最 直接 的 办 法 是 跟随 从 源 端 到 目的 端的 数据 流 。 源 端 组 件 通 
过 向 本 地 QoS 管理 器 发 送 一 个 流 规约 来 启动 协商 过 程 。QoS 管理 器 可 以 检查 数据 库 中 记录 的 可 用 资源 
并 决定 所 请 求 的 QoS 是 否 能 满足 。 如 果 这 一 应 用 程序 涉及 其 他 系统 ， 那 么 流 规约 被 传送 到 下 一 个 请 求 
资源 的 结 点 。 这 一 流 规约 遍历 所 有 的 结 点 ， 直 到 它 最 终 到 达 目 的 端 。 之后， 系统 是 否 可 以 提供 所 期 望 
的 QoS 的 信息 被 传 回 源 端 。 这 种 简单 的 协商 方法 可 以 满足 多 种 目的 ， 但 它 没有 考虑 到 在 不 同 结 点 上 开 
始 的 并 发 Qo 协商 之 间 可 能 会 发 生 冲 突 。 需 要 一 个 分 布 式 事务 型 的 Qos 协商 过 程 ， 才 能 形成 对 这 个 问 
题 的 一 个 彻底 解决 方案 。 

应 用 程序 很 少 拥有 固定 的 QoS 需求 。 相 对 于 返回 一 个 布尔 值 表示 某 一 QS 是 否 能 被 提供 的 方式 ， 
另 一 种 更 好 的 方法 是 由 系统 决定 可 以 提供 什么 样 的 QoS， 并 让 应 用 程序 来 决定 它 是 否 可 以 接受 。 为 了 
避免 过 度 优化 的 QoS， 或 者 为 了 在 所 需 的 服务 质量 明显 不 能 达到 的 情况 下 放弃 这 一 协商 ， 通 常 为 每 个 
QoS 参数 指定 预期 值 和 最 坏 情 况 值 。 也 就 是 说 ， 一 个 应 用 程序 可 能 会 指定 它 需 要 1. 5Mbps 的 带宽 ,但 
在 1Mbps 带宽 的 情况 下 它 也 能 处 理 ; 或 者 延迟 应 该 为 200ms， 但 300ms 是 它 可 接受 的 最 坏 情况 。 因 为 
一 次 只 能 优化 一 个 参数 ， 所 以 像 HeiRAT[ Vogt et al. 1993] 这 样 的 系统 希望 用 户 只 定义 两 个 参数 的 值 ， 
并 让 系统 来 优化 第 三 个 参数 。 

如 果 一 个 数据 流 包含 多 个 槽 〔 即 目的 地 ) ， 那 么 将 根据 数据 流 确定 协商 路 径 的 分 支 。 作 为 以 上 方 
案 的 直接 扩展 ， 中 间 结 点 能 聚集 来 自 目的 端的 QoS 反馈 消息 并 生成 QoS 参数 在 最 坏 情况 下 的 值 。 之 后 ， 
可 用 的 带宽 变 成 各 目的 端 可 用 带宽 的 最 小 值 ， 延 迟 变 成 各 目的 端 延 迟 的 最 大 信 ， 丢 失 率 变 成 各 目的 端 
丢失 率 的 最 大 值 。 像 SRP、ST-I 和 RCAP[ Banerjea and Mah 1991] 这 样 的 由 发 送 端 发 起 的 协商 协议 使 
用 了 以 上 过 程 。 

在 目的 端 是 异 构 的 情况 下 ， 通 常 不 适合 给 所 有 目的 端 赋予 一 个 公共 的 最 坏 情况 QoS。 相 反 ， 每 一 
个 目的 端 应 接收 最 好 的 QoS 可 能 值 。 这 就 要 求 由 接收 端 发 起 协商 ， 而 不 是 由 发 送 方 发 起 协商 过 程 。 
RSVP[ Zhang et al. 1993] 是 另 一 类 QoS 协商 协议 ， 其 中 由 目的 端 连 接 数据 流 。 源 端 将 现 有 的 数据 流 和 
它们 的 内 在 特征 通知 给 各 个 目的 端 。 目 的 端 便 可 以 连接 到 数据 流 经 过 的 最 近 结 点 ， 并 从 那里 获得 数据 。 
为 了 使 它们 能 获得 适合 QoS 的 数据 ， 它 们 可 能 需要 使 用 过 滤 (BIL 20.5 节 的 讨论 ) 这 样 的 技术 。 
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20.3.2 许可 控制 


许可 控制 管理 对 资源 的 访问 ， 以 避免 资源 过 载 ， 并 防止 资源 接收 不 可 能 实现 的 请 求 。 如 果 一 个 新 
的 多 媒体 流 的 资源 需求 违反 了 已 有 的 QoS 保证 ,那么 它 还 涉及 关闭 服务 请 求 。 

一 个 许可 控制 方案 是 基于 整个 系统 容量 和 每 个 应 用 程序 产生 的 负载 这 两 方面 的 知识 的 。 一 个 应 用 
程序 的 带宽 需求 规约 能 反映 应 用 程序 需要 的 最 大 带宽 、 保 证 其 运行 的 最 小 带宽 ， 或 者 是 它们 之 间 的 平 
均值 。 相 应 的 ， 一 个 许可 控制 方案 可 以 基于 这 些 值 之 一 进行 资源 分 配 。 

如 果 所 有 的 资源 只 由 一 个 分 配器 控制 ,那么 许可 控制 是 非常 简单 的 。 如 果 资 源 访 问 分 布 在 不 同 结 
点 上 ， 例 如 许多 局 域 网 环境 ， 那 么 可 以 使 用 一 个 集中 式 许 可 控制 实体 ， 也 可 以 使 用 一 个 分 布 式 的 许可 
控制 算法 来 避免 并 发 许可 控制 的 冲突 。 工 作 站 的 总 线 仲 裁 算法 就 属于 这 一 类 算法 。 然 而 ,执行 带宽 分 
配 的 多 媒体 系统 并 不 控制 总 线 许 可 ， 因 为 总 线 带 宽 并 不 被 认为 在 厦 乏 区 内 。 

带宽 预 留 ”保证 多 媒体 流 某 一 QoS 级 别 的 一 个 常用 方法 是 预 留 一 部 分 的 资源 带宽 ， 以 便 由 它 独 占 
使 用 。 为 了 在 任 一 时 刻 满足 数据 流 的 需求 ， 需 要 为 它 预 留 最 大 带宽 。 这 是 给 应 用 程序 提供 有 保障 QoS 
的 唯一 可 能 的 方法 一 一 至 少 不 会 发 生 灾难 性 的 系统 故障 。 在 应 用 程序 不 能 适应 不 同 级 别 的 QoS 或 者 当 
其 质量 下 降 使 程序 不 可 用 的 情况 下 ， 可 以 使 用 这 种 方法 。 相 应 的 例子 包括 一 些 医 疗 应 用 系统 (在 X 光 
视频 中 ， 某 症状 图 像 可 能 正好 位 于 丢失 的 帧 中 ) 和 视频 记录 系统 〈 每 次 播放 视频 时 ， 丢 掉 的 由 可 能 会 
导致 可 见 记 录 中 的 缺陷 ) 。 

基于 最 大 需求 的 预 留 是 非常 简单 的 ， 当 控制 访问 一 个 带宽 为 8 的 网 络 时 , 仅 当 于 5, 志 B 时 ， 带 宽 
H b, 的 多 媒体 数据 流 s 才能 允许 访问 。 这 样 ， 一 个 16Mbps 的 令 牌 环 网 可 能 支持 最 多 10 个 1. 5Mbps 的 
数字 视频 流 。 

遗憾 的 是 ， 容 量 计算 并 不 总 是 和 在 网 络 中 一 样 简单 。 为 了 以 同样 的 方式 分 配 CPU 带宽 ， 需 要 知道 
每 个 应 用 程序 进程 的 执行 配置 。 然 而 ,执行 时 间 取 决 于 所 使 用 的 处 理 器 ,并且 经 常 不 能 被 精确 估计 。 
虽然 存在 几 种 自动 计算 执行 时 间 的 提议 [Mok 1985, Kopetz et al. 1989 ] ， 但 它们 都 没有 被 广泛 应 用 。 
通常 通过 度量 来 决定 执行 时 间 ， 但 它 通常 有 很 宽 的 错误 范围 并 且 移 植 性 很 有 限 。 

对 于 MPEG 这 样 典型 的 媒体 编码 而 言 ， 应 用 程序 实际 消耗 的 带宽 可 能 比 最 大 带宽 小 得 多 。 基 于 最 
大 需求 的 预 留 方法 可 能 会 导致 带宽 资源 的 浪费 ; 尽管 新 的 资源 申请 可 以 被 满足 ， 即 使 用 已 被 保留 而 未 
被 已 有 程序 实际 使 用 的 带宽 ， 但 是 该 申请 请 求 仍然 被 拒绝 。 

统计 的 多 路 技术 ”因为 资源 低 利 用 情况 可 能 会 发 生 ， 所 以 过 度 预 留 是 常事 。 而 一 些 保证 技术 仅 在 
某 一 〈 通 常 很 高 的 ) 概率 下 有 效 ， 这 些 保证 经 常 被 称 为 统计 保证 或 软 保证 ， 它 与 前 面 介绍 的 确定 性 保 
证 或 硬 保证 技术 不 同 。 因 为 不 考虑 最 坏 的 情况 ， 所 以 统计 保证 技术 可 以 提供 更 好 的 资源 利用 率 。 但 是 
如 果 仅 仅 只 依据 最 小 或 平均 需求 来 分 配 资源 ， 那 么 瞬时 的 高 峰 负 载 可 能 会 导致 服务 质量 的 下 降 ， 应 用 
程序 必须 能 处 理 这 样 的 服务 质量 下 降 。 

统计 的 多 路 技术 是 基于 这 样 一 个 假设 : 对 大 量 数据 流 来 说 ， 虽 然 单个 的 数据 流 可 能 会 发 生变 化 ， 
但 这 些 数 据 流 需 要 的 总 带宽 相对 稳定 。 它 假设 当 一 个 数据 流 发 送 大 量 的 数据 时 ， 就 有 可 能 有 另 一 个 数 
据 流 发 送 较 小 的 数据 量 ， 这 样 总 带宽 需求 保存 平衡 。 当 然 这 只 是 数据 流 之 间 无 关联 的 情况 。 

正 像 试验 所 显示 的 那样 [Leland et al. 1993 ] ， 在 典型 环境 下 ， 多 媒体 流量 并 不 符合 这 一 假设 。 假 
设 有 大 量 的 爆发 的 数据 流 ， 那 么 总 流量 仍然 是 爆发 的 。 术 语 自 相似 (self- similar) 被 应 用 于 这 种 现象 ， 
它 表 示 总 流量 和 组 成 它 的 单个 流量 具有 相似 性 。 


20.4 资源 管理 

为 了 向 应 用 程序 提供 某 一 QoS 等 级 ， 系 统 不 仅 要 有 充分 的 资源 (性 能 ) ， 它 还 要 在 应 用 程序 需要 
时 有 能 力 将 这 些 资 源 提供 给 程序 使 用 (调度 )。 
资源 调度 

系统 根据 进程 的 优先 级 来 为 其 分 配 资源 。 资 源 调度 器 根据 某 一 标准 来 决定 进程 的 优先 级 。 在 分 时 
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系统 中 ， 传 统 的 CPU 调度 器 经 常 基于 程序 的 响应 时 间 以 及 公平 性 来 指定 优先 级 : VO 密集 的 进程 会 获 
得 高 优先 级 ， 这 样 可 以 保证 对 用 户 请 求 做 出 快速 响应 ，CPU 密集 型 的 任务 获得 低 优 先 级 ， 并 且 总 的 说 
来 ,平等 对 待 同一 优先 级 的 进程 。 

上 述 准 则 对 多 媒体 系统 仍然 有 效 ， 但 是 传递 单个 多 媒体 数据 元 素 的 截止 期 制 改变 了 调度 问题 的 本 
质 。 如 下 面 所 讨论 的 ， 可 以 应 用 实时 调度 算法 。 因 为 多 媒体 系统 必须 处 理 离散 的 和 连续 的 媒体 ， 因 此 
在 不 会 造成 离散 媒体 访问 和 其 他 交互 应 用 程序 饥 铁 的 情况 下 ， 如 何 为 时 间 相 关 的 数据 流 提 供 充 分 的 服 
务 是 一 个 巨大 的 挑战 。 

调度 方法 必须 应 用 到 (并 协调 ) 影响 多 媒体 应 用 程序 性 能 的 所 有 资源 。 在 一 个 典型 的 场景 中 ， 系 
统 从 磁盘 上 读 取 多 媒体 数据 流 ， 并 将 其 通过 网 络 传输 到 目的 机 器 。 在 目的 机 器 上 ， 该 数据 流 和 其 他 来 
源 的 数据 流 同 步 合 成 起 来 ， 并 最 终 显示 出 来 。 在 这 个 例子 中 ， 所 需要 的 资源 包括 磁盘 、 网 络 、CPU 以 
及 内 存 和 总 线 带宽 。 

公平 调度 ”如 果 有 多 个 流 竞争 同一 资源 ， 那 么 必须 考虑 公平 性 ， 防 止 不 正常 的 数据 流 占用 过 多 的 
带宽 。 保 证 公平 性 的 一 个 简单 方法 是 对 同一 类 数据 流 使 用 轮转 调度 方法 。 在 Nagle[ 1987] 中 ， 这 人 一方 
法 是 基于 包 (packet- by- packet basis) 引入 的 。 在 Demers 等 [1989] 中 ， 这 种 方法 是 在 比特 基础 上 
(bit-by-bit) 使 用 的 ， 相 对 于 包 的 大 小 和 包 的 到 达 时 间 会 发 生变 化 ， 所 以 后 一 种 方法 提供 了 更 好 的 公平 
性 。 这 些 方法 被 称 为 公平 排队 。 

数据 包 实 际 上 不 能 按 比 特 进 行 发 送 ， 但 是 在 给 定 的 帧 速率 并 且 要 求 必 须 完 全 发 送 的 情况 下 ， 计 算 
用 于 每 个 包 的 时 间 是 可 能 的 。 如 果 包 传输 是 基于 这 一 计算 结果 排序 的 ， 那么 它 可 以 获得 接近 基于 比特 
的 轮转 方法 所 产生 的 传输 结果 ， 除 非 有 个 非常 大 的 数据 包 需 要 传输 ， 这 时 它 会 阻塞 小 数据 包 的 传输 。 
这 种 情况 用 基于 比特 的 机 制 更 合适 。 然 而 ， 任 何 包 的 延迟 都 不 会 长 于 最 大 包 的 传输 时 间 。 

所 有 的 基本 轮转 方案 都 为 每 一 个 数据 流 分 配 了 同样 的 带宽 。 考 虑 到 单个 数据 流 的 带宽 ， 可 以 将 基 
于 比特 的 方法 进行 扩展 ， 使 得 一 些 数据 流 可 以 在 每 个 周期 传输 更 多 的 比特 。 这 种 方法 称 为 基于 权 值 的 
公平 排队 。 

实时 调度 ”人们 已 经 开发 出 一 些 实 时 调度 算法 来 满足 一 些 应 用 程序 (如 航空 工业 中 的 过 程控 制 ) 
的 CPU 调度 需要 。 假 设 CPU 资源 并 没有 被 过 度 分 配 〈 这 是 Qo5 管理 器 的 任务 ) ， 调 度 算法 将 CPU 时 间 
片 以 某 种 方式 分 配给 多 个 进程 ， 而 这 种 分 配方 式 必 须 保证 进程 能 及 时 完成 任务 。 

传统 的 实时 调度 方法 十 分 适合 规则 的 连续 多 媒体 流 模 型 。 最 早 截 止 期 优先 (Earliest- Deadline- 
First, EDF) 调度 方法 几乎 已 经 成 为 这 些 方法 的 代名词 。EDF 调度 器 根据 每 个 工作 项 的 截止 期 来 决定 
下 一 个 要 处 理 的 工作 项 : 具有 最 早 截止 期 的 工作 项 第 一 个 处 理 。 在 多 媒体 应 用 程序 中 ， 我 们 将 到 达 一 
个 进程 的 多 媒体 元 素 称 为 工作 项 。EDF 调度 方法 被 证 明 在 基于 时 序 标准 分 配 资源 方面 是 最 优 的 : 如 果 
有 一 个 调度 满足 了 所 有 的 时 序 需 求 ， 那 么 EDF 调度 将 能 找到 它 [Dertouzos 1974], 

EDF 调度 方法 需要 在 每 个 消息 ( 即 每 个 多 媒体 元 素 ) 上 进行 调度 决策 。 如 果 是 对 长 期 存在 的 元 素 
进行 调度 ， 那 么 还 有 更 有 效 的 方法 。 单 调 速率 (Rate- Monotonic，RM) 调度 方法 是 一 个 适用 于 实时 调 
度 周期 性 进程 的 著名 技术 ， 它 可 以 实现 以 上 目标 。 根 据 数 据 流 的 速率 为 流 赋 予 优先 级 : 数据 流 中 工作 
项 的 速率 越 高 ， 数 据 流 的 优先 级 越 高 。 在 多 媒体 程序 使 用 的 带宽 低 于 69% 时 ，RM 调度 方法 已 经 被 证 
明 是 最 优 的 [Liu and Layland 1973] 。 使 用 这 样 的 分 配方 案 ， 剩 余 的 带宽 可 以 用 于 非 实时 应 用 程序 。 

为 了 应 付 爆 发 的 实时 流量 ， 基 本 的 实时 调度 方法 应 该 被 调整 为 能 识别 有 严格 时 间 要 求 和 无 严格 时 
间 要 求 的 连续 媒体 工作 项 。Govindan 和 Anderson [1991] 介绍 了 截止 期 / 预 工作 调度 方法 。 它 允许 在 数 
据 爆发 时 连续 数据 流 中 的 消息 可 以 提前 到 达 ， 但 是 只 有 在 一 条 消息 的 正常 到 达 时 刻 才 对 这 一 消息 使 用 
EDF 调度 。 


20.5 流 自 适应 

每 当 系统 不 能 保证 特定 的 QoS， 或 者 当 系统 只 能 以 某 种 概率 保证 QoS 时 ， 应 用 程序 需要 适应 变化 
的 QoS 级 别 ， 相 应 地 调整 自身 的 性 能 。 对 于 连续 媒体 数据 流 而 言 ， 这 种 调整 将 转化 为 媒体 表示 质量 的 
不 同 级 别 。 
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最 简单 的 调整 是 丢掉 部 分 信息 。 音 频数 据 流 的 采样 是 相互 独立 的 ， 因 此 这 种 方法 比较 容易 实现 ， 
但 是 收听 者 会 立刻 发 现 这 种 丢失 。 在 Motion JPEG 编码 技术 中 ， 因 为 它 的 视频 帧 是 独立 的 ， 所 以 数据 丢 
失 还 是 可 以 容忍 的 。 在 诸如 MPEG 等 编码 机 制 中 ， 一 个 视频 帧 的 解释 依赖 于 数 个 相 邻 的 帧 ， 所 以 容忍 
数据 丢失 的 能 力 比 较 弱 : 它 要 花 一 段 时 间 从 错误 中 恢复 ， 并 且 这 种 编码 机 制 可 能 会 放大 错误 。 

如 果 没 有 足够 的 带宽 并 且 数 据 也 没有 丢失 ， 那 么 随时 间 的 流逝 会 发 生 延 迟 。 对 于 非 交 互 式 的 应 用 ， 
这 是 可 以 接受 的 ， 尽管 它 会 因为 数据 累积 在 源 端 和 目的 端 之 间 最 终 导致 缓冲 区 溢出 。 对 于 会 议和 其 他 
交互 式 的 应 用 程序 而 言 ， 延 迟 增加 是 不 可 接受 的 ,或 者 延迟 只 能 持续 一 小 段 时 间 。 如 果 一 个 数据 流 的 
播放 时 间 延 迟 了 ， 它 的 播放 速率 应 该 被 加 快 ， 直 到 回 到 正常 的 播放 时 间 表 为 止 : 当 数据 流 被 延迟 时 ， 
数据 帧 在 它 可 用 时 就 应 该 立即 被 输出 。 


20. 5.1 调整 


如 果 在 流 的 目的 端 执行 流 自 适 应 操作 ， 系 统 中 任 一 瓶颈 的 负载 非但 没有 被 减少 ， 并 且 过 载 情形 会 
持续 。 为 了 解决 这 一 问题 ， 需 要 在 进入 瓶颈 资源 前 就 将 流 调整 到 系统 可 用 带宽 可 以 承受 的 范围 。 这 称 
为 流 调 整 (scaling) 。 

在 采样 现场 直播 数据 流 时 ， 最 合适 采用 流 调整 。 对 于 已 存储 的 数据 流 来 说 ， 生 成 降级 流 的 容易 程 
度 取决 于 编码 方法 。 如 果 仅 为 了 调整 的 目的 ， 整 个 数据 流 不 得 不 被 解压 缩 和 再 次 编码 ， 那 么 流 调 整 可 
能 会 变 得 很 麻烦 。 尽 管 所 有 的 流 调整 方法 都 是 一 样 的 : 对 给 定 的 信号 进行 二 次 采样 ， 但 流 调整 算法 是 
依赖 于 媒体 的 。 对 音频 信息 来 说 ， 可 以 通过 减少 音频 采样 的 频率 来 实现 这 一 二 次 采样 过 程 。 也 可 以 通 
过 减少 立体 声 传输 中 的 一 个 声 道 来 实现 二 次 采样 。 这 个 例子 也 说 明 ， 不同 的 流 调整 方法 能 在 不 同 的 粒 
度 上 工作 。 

下 列 的 流 调整 方法 适合 视频 数据 流 : 

时 序 调整 : 通过 减少 一 个 时 间 间 隔 传 输 的 视频 帧 的 数 有 目 ， 可 以 减少 时 间 域 中 的 视频 流 的 分 辨 率 。 
时 序 调整 最 适合 于 那些 每 个 视频 帧 是 自 包含 的 并 且 对 单个 视频 帧 可 独立 访问 的 视频 流 。 它 很 难处 理 
Delta 压缩 技术 生成 的 数据 流 ， 因 为 不 是 所 有 的 帧 都 可 以 轻易 丢弃 。 因 此 ， 时 序 调整 技术 更 适合 于 
Motion JPEG 流 ， 而 不 太 适 合 MPEG 流 。 

空间 调整 ; 在 视频 流 中 减少 每 个 图 像 的 像素 数 。 对 空间 调整 技术 而 言 ， 最 理想 是 采用 层次 型 管理 ， 
因为 这 样 可 以 立即 获得 各 种 分 辩 率 的 压缩 视频 。 因 此 ， 在 最 终 传输 前 不 需要 对 每 个 图 像 再 次 编码 ， 就 
可 以 在 网 上 使 用 不 同 的 分 辩 率 来 传输 视频 流 。JPEG 和 MPEG-2 支持 图 像 不 同 的 空间 分 辨 率 ， 很 适合 使 
用 这 种 调整 方法 。 

频率 调整 : 修改 应 用 于 图 像 的 压缩 算法 。 这 样 会 导致 一 部 分 图 像 质量 的 损失 ， 不 过 在 通常 的 图 像 
中 ， 可 以 在 察觉 到 图 像 质量 降低 前 ， 大 大 增加 压缩 。 

振幅 调整 ; 减少 每 个 像素 的 颜色 深度 。 这 种 调整 方法 实际 上 被 H. 261 编码 使 用 ， 以 便 在 图 像 内 容 
发 生变 化 时 ， 以 恒定 的 吞吐 率 到 达 。 

颜色 空间 调整 : 减少 颜色 空间 中 项 的 数目 。 实 现 颜 色 空 间 调 整 的 一 种 方法 是 将 彩色 图 像 转变 为 黑 
HAR. 

在 需要 时 ， 还 可 以 将 这 些 调整 方法 组 合 起 来 。 

执行 调整 的 系统 由 一 个 位 于 目的 端的 监视 进程 和 一 个 位 于 源 端 的 调整 进程 组 成 。 监 视 进 程 监视 流 
中 消息 的 到 达 时 间 。 延 迟 的 消息 说 明 系 统 中 存在 瓶颈 。 监 视 进 程 会 向 源 端 发 送 一 个 向 下 调整 消息 ， 源 
端 就 减少 数据 流 的 带宽 。 过 一 段 时 间 以 后 ， 源 端 将 流向 上 调整 回 原来 的 水 平 。 如 果 瓶 颈 仍 然 存 在 ， 监 
视 进 程 会 再 次 检测 到 延迟 ， 源 端 会 再 次 向 下 调整 数据 流 [ Delgrossi et al. 1993 ] 。 调 整 系统 的 问题 包括 ， 
如 何 避 免 不 必 要 的 向 上 调整 操作 和 如 何 避 免 系统 进入 持 动 状态 。 


20.5.2 ”过滤 
流 调整 在 源 端 改 变 了 流 ， 但 它 并 不 总 适合 于 涉及 多 个 接收 者 的 应 用 程序 : 当 瓶 颈 出 现在 从 源 端 到 
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其 中 一 个 目的 端的 路 径 上 时 ， 目 的 端 向 源 端 发 送 一 个 向 下 调整 消息 ， 这 会 使 所 有 的 目的 端 接收 到 的 图 
像 质量 下 降 ， 尽 管 其 中 可 能 有 些 接收 者 在 处 理 原 数据 
流 时 没有 任何 问题 。 

过 滤 技 术 可 以 为 每 个 目的 端 提供 尽 可 能 好 的 _ 0 
QoS， 它 是 通过 在 从 源 端 到 目的 端的 路 径 上 的 每 个 相 On i 
关 结 点 上 采用 流 调整 技术 (图 20- 8) 来 实现 的 。 À 
RSVP[ Zhang et al. 1993] 是 支持 过 滤 的 QoS 协商 协议 。 EFEO 
的 一 个 例子 。 过 滤 将 一 个 流 分 解 为 一 个 层次 性 的 子 流 “中 等 带宽 
集合 ， 其 中 每 一 个 子 流 增加 更 高 级 别 的 质量 。 路 径 结 PPA 
点 的 容量 决定 了 一 个 目的 端 接收 到 的 子 流 数 。 其 他 的 图 20-8 ”过滤 
子 流 在 靠近 源 的 地 方 (甚至 可 能 就 在 源 端 就 被 过 
滤 掉 ， 这 样 可 以 避免 传输 后 来 被 丢弃 的 数据 。 如 果 一 个 中 间 结 点 存在 一 条 可 以 传输 整个 子 流 的 向 下 传 
答 的 路 径 ， 那 么 子 流 在 这 个 结 点 上 就 不 会 被 过 滤 。 


20.6 ”实例 研究 ，Tiger 视频 文件 服务 器 、BitTorrent 和 端 系 统 多 播 


正如 第 1 章 所 讨论 的 ， 多 媒体 是 当代 分 布 式 系统 的 一 个 重要 趋势 。 多 媒体 被 认为 存在 于 所 有 的 分 
布 式 系统 中 ， 而 不 是 一 个 自己 的 领域 ， 因 此 它 对 分 布 式 系统 的 所 有 设计 方面 都 提出 了 必须 要 考虑 的 挑 
战 。 本 节 中 ， 我 们 给 出 实例 研究 ， 说 明 多 媒体 如 何 影响 分 布 式 系 统 开发 的 三 个 关键 领域 : 

© 支持 视频 文件 的 分 布 式 文件 系统 的 设计 (Tiger 视频 文件 服务 器 ) ; 

© 支持 非常 大 的 多 媒体 文件 的 对 等 下 载 系统 的 设计 (BitTorrent) ; 

© 实时 多 播 流 服务 的 设计 〈 端 系统 多 播 ) 。 

请 注意 ， 在 我 们 查看 Skype 所 采用 的 覆盖 网 结构 时 ， 我 们 已 经 看 到 了 一 个 多 媒体 服务 的 例子 〈 参 
见 4.5.2 节 )。 


20. 6. 1 Tiger 视频 文件 服务 器 


同时 提供 多 个 实时 视频 流 的 视频 存储 系统 被 看 做 支持 面向 消费 者 的 多 媒体 应 应 用 程序 的 一 个 重要 的 系统 
组 件 。 人 们 已 经 开发 了 多 个 这 种 类 型 的 原型 系统 ， 并 且 其 中 的 一 些 已 经 进化 成 实际 产品 ( 见 [Cheng 1998] ) 。 
最 先进 的 一 个 系统 是 Tiger 视频 文件 服务 器 ， 它 是 由 Microsoft 研究 院 开发 的 【Bolosky et al. 1996] 。 

设计 目标 ”这 个 系统 的 主要 设计 目标 如 下 : 

适用 于 大 量 用 户 的 视频 点 播 : 这 一 应 用 程序 是 向 付费 的 用 户 提供 电影 的 服务 。 系 统 从 大 容量 的 数 
字 电 影库 中 选择 电影 。 客 户 应 在 发 送 点 播 请 求 的 数秒 内 就 能 获得 他 们 选中 的 电影 的 第 一 个 帧 ， 并 且 他 
们 应 该 能 随心 所 欲 地 执行 暂停 、 回 退 和 快 进 操作 。 尽 管 库 中 电影 的 数量 很 多 ， 但 是 可 能 有 一 些 电影 是 
很 受 欢 迎 的 ， 它 们 可 能 被 多 个 客户 不 同步 地 请 求 ， 这 就 可 能 导致 同时 播放 它们 ， 但 是 播放 的 时 间 进 度 
不 同 。 

服务 质量 ;视频 流 的 传输 速率 应 保持 稳定 ， 其 中 客户 端 可 用 的 缓冲 区 大 小 决定 了 最 大 的 抖动 ， 并 
且 视 频 流 还 应 保持 低 丢 失 率 。 

可 伸缩 性 和 分 布 性 : 目的 是 设计 一 种 《通过 增加 计算 机 ) 具有 可 扩展 的 体系 结构 的 系统 ， 它 可 以 
同时 支持 10 000 个 客户 。 

硬件 成 本 低 : 这 个 系统 是 由 低 价 的 硬件 构建 的 (具有 标准 磁盘 驱动 的 “商用 ”PC)。 

容错 性 : 在 单个 服务 器 计算 机 或 者 是 磁盘 驱动 器 发 生 故 障 时 ， 系 统 可 以 继续 运行 并 且 执行 性 能 没 
有 明显 下 降 。 

总 而 言 之 ， 这 些 需求 要 求 有 一 个 存储 和 检索 视频 数据 的 基本 方法 和 一 个 平衡 多 个 相似 服务 器 之 间 
负载 的 有 效 调度 算法 。 该 调度 算法 的 主要 任务 是 将 从 磁盘 存储 上 获取 的 高 带宽 的 视频 数据 流传 输 到 网 
络 上 ， 并 且 这 个 负载 应 该 是 在 服务 器 之 间 共 同 承 担 的 。 

体系 结构 ”在 图 20-9 中 显示 了 Tiger 系统 的 硬件 体系 结构 。 所 有 的 组 件 都 是 市 面 上 可 买 到 的 成 品 。 
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图 中 所 示 的 cub 计算 机 是 一 样 的 PC， 每 个 PC 包含 了 同样 数量 的 标准 硬盘 驱动 器 (通常 是 2 ~4 个 )。 
它们 还 安装 了 以 太 网 和 ATM 网 网 卡 (参见 第 3 章 ) controller 是 另 一 台 PC。 它 不 负责 处 理 多 媒体 数 
据 ， 其 职责 只 是 处 理 客户 请 求 和 管理 cub 计算 机 的 工作 调度 。 


controller < 


低 带 宽 网 络 | 


papelera lps 


cub 0 cub | cub 2 o ooo cab nr 


omy b 4 4 | 


AITM 交 换 网 














2 æ 
将 视频 数据 分 发 给 客户 客户 发 出 的 开始 /停止 指令 


图 20-9 Tiger 视频 文件 系统 的 硬件 配置 


存储 组 织 ” 存 储 主要 的 设计 问题 是 如 何在 cub 计算 机 的 磁盘 上 分 布 视频 数据 ， 以 使 得 计算 机 共享 
负载 。 因 为 系统 负载 涉及 提供 同一 电影 的 多 个 流 以 及 提供 多 个 不 同 电影 的 多 个 流 ， 因 此 使 用 单个 磁盘 
来 存储 每 个 电影 的 解决 方案 是 不 能 达到 以 上 目标 的 。 相 反 ， 电 影 被 存储 在 跨越 所 有 磁盘 的 条 带 上 。 这 
导致 了 这 样 的 故障 模型 : 磁盘 或 cub 的 丢失 会 形成 每 个 电影 序列 中 的 一 段 空 白 。 这 可 以 通过 复制 数据 
的 镜像 方法 和 容错 机 制 来 处 理 ， 下 面 将 介绍 这 一 内 容 : 

条 带 存储 striping) : 电影 被 划分 为 块 〈( 具 有 相等 播放 时 间 的 视频 块 ， 通常 是 1 秒 左右 ， 大 概 占据 
0. 5MB) ， 这 些 组 成 一 部 电影 的 块 集合 (通常 两 小 时 的 电影 大 约 包 含 7000 个 块 ) 存储 在 属于 不 同 cub 
计算 机 的 磁盘 上 ， 形 成 由 磁盘 号 表示 的 一 个 序列 ， 如 图 20-9 所 示 。 一 部 电影 能 从 任 一 磁盘 开始 存储 。 
每 次 到 达 编 号 最 大 的 磁盘 ， 那 么 电影 又 重新 存储 ， 这 样 下 一 数据 块 会 被 存储 在 磁盘 0 上 ， 然 后 继续 这 
个 过 程 。 

镜像 : 镜像 模式 将 每 个 数据 块 划分 为 几 个 部 分 ， 称 为 二 级 备份 。 这 样 做 能 保证 当 一 个 cub 计算 机 
失效 后 ， 本 来 由 cub 计算 机 提供 块 数据 的 任务 被 分 配 到 剩余 cub 计算 机 的 几 个 上 而 不 是 一 个 上 。 每 个 
块 的 二 级 备份 的 数目 取决 于 数列 因子 4， 它 的 值 通常 在 4 ~8。 存 储 在 磁盘 ; 上 的 块 的 二 级 备份 被 存储 在 
磁盘 i+1 到 i+d 上 。 注意， 只 要 cub 计算 机 的 数目 多 于 d 个， 那么 这 些 磁盘 中 没有 一 个 和 磁盘 i 属于 
同一 个 cub HAL. MRR AF MEA 8, IBA cub 计算 机 接近 7/8 的 处 理 能 力 和 磁盘 带宽 ， 能 将 其 
分 配给 无 故障 的 任务 。 剩 余 的 1/8 的 资源 应 该 足以 为 二 级 备份 提供 服务 〈 在 需要 时 ) 。 

分 布 式 调度 Tiger 系统 设计 的 核心 是 调度 cub 计算 机 的 工作 负载 。 它 的 调度 表 组 织 成 一 个 档 的 列 
表 形 式 ， 其 中 每 个 档 表 示 播 放电 影 的 一 个 块 所 必须 做 的 工作 。 也 就 是 说 ， 从 相关 的 磁盘 上 读 取 数据 块 ， 
并 将 其 传输 到 ATM 网 络 上 。 每 一 个 可 能 的 接收 电影 的 客户 〈 被 称 为 收看 者 ) 只 有 一 个 槽 ， 并 且 每 个 被 
占据 的 槽 表示 一 个 收看 者 正在 接收 实时 视频 数据 流 。 在 调度 表 中 ， 收 看 者 的 状态 通过 以 下 信息 表示 ; 

。 客户 计算 机 的 地 址 。 

。 被 播放 的 文件 的 标识 。 

。 文件 中 收看 者 的 位 置 〈 流 中 下 一 个 要 传递 的 数据 块 ) 。 

。 收看 者 播放 的 序号 〈 从 中 可 以 计算 出 下 一 个 数据 块 的 传递 时 间 ) 。 

。 其 他 一 些 记 录 信 息 。 

图 20-10 给 出 了 Tiger 调度 的 示意 图 。 块 播放 时 间 (block play time) 了 是 指 在 客户 计算 机 上 收看 者 
播放 一 个 块 的 时 间 一 一 其 值 通常 是 1s， 并 且 假 设 对 所 有 存储 的 电影 来 说 ， 该 值 都 是 相等 的 。 因 此 ， 
Tiger 系 统 必 须 在 每 个 数据 流 的 块 传递 期 数 之 间 维 持 一 个 时 间 间 隔 7， 由 客户 计算 机 上 的 可 用 缓冲 大 小 
来 决定 系统 可 以 允许 的 抖动 。 
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图 20-10 Tiger 系统 的 调度 


每 一 个 cub 计算 机 维持 一 个 指针 ， 该 指针 指向 该 cub 控制 的 每 个 磁盘 的 调度 表 。 在 播放 每 个 块 时 ， 
cub 计算 机 必须 处 理 所 有 满足 下 列 条 件 的 槽 ， 覃 中 的 块 号 正好 落 在 属于 它 控制 的 磁盘 上 ， 而 传递 时 间 
落 在 当前 的 块 播放 时 间 内 。cub 计算 机 一 次 对 调度 表 的 一 个 实时 处 理 槽 进行 如 下 动作 : 

1) 将 下 一 个 数据 块 从 磁盘 上 读 出 ， 放 在 此 cub 计算 机 的 缓冲 区 内 。 

2) 将 此 数据 块 打 包 并 记 下 客户 端 计算 机 的 地 址 ， 并 将 其 传输 到 cub 计算 机 的 ATM 网 络 控制 器 上 。 

3) 更 新 调度 表 中 收看 者 的 状态 ， 这 样 可 以 给 出 下 一 个 数据 块 和 播放 序号 ,然后 将 更 新 的 槽 传送 给 
下 一 个 cub 计算 机 处 理 。 

假设 这 些 动作 的 最 大 时 间 开 销 为 :( 称 为 块 服务 时 间 )。 如 图 20-10 所 示 , t 实际 上 小 于 磁盘 块 的 播 
放 时 间 。i 值 取决 于 磁盘 带宽 或 网 络 带 宽 ， 取 两 个 值 中 小 的 那个 〈 在 cub 计算 机 中 处 理 资源 是 足够 完成 
对 其 拥有 的 所 有 磁盘 的 调度 工作 的 ) 。 当 一 个 cub 计算 机 完成 对 当前 的 块 播放 时 间 的 调度 任务 ， 它 就 可 
以 执行 其 他 未 调度 的 工作 ， 直 到 到 达 下 一 个 播放 时 间 为 止 。 实 际 上 ， 磁盘 并 没有 提供 具有 固定 延迟 的 
块 ， 为 了 适应 这 种 不 均匀 的 传递 ， 至 少 在 块 被 打包 和 传递 前 的 一 个 块 服务 时 间 ， 就 启动 读 盘 过 程 。 

一 个 磁盘 可 以 为 TY 个 流 服务 ， 并 且 了 和 + 的 值 通常 导致 Tt 的 结果 大 于 4。 这 一 比率 以 及 整个 系 
统 中 的 磁盘 数目 决定 了 Tiger 系统 可 以 服务 的 收看 者 的 数目 。 例 如 ， 一 个 拥有 5 个 cub 计算 机 并 且 每 个 
计算 机 上 有 3 个 磁盘 的 Tiger 系统 可 以 同时 传递 大 约 70 个 视频 流 。 

容错 性 ”因为 在 Tiger 系统 中 ， 所 有 电影 文件 的 条 带 都 跨越 了 所 有 的 磁盘 ， 所 以 任 一 组 件 〈 磁 盘 驱 
BABAR cub 计算 机 ) 的 故障 都 可 能 导致 对 所 有 客户 的 服务 的 中 断 。Tiger 系统 应 付 这 种 情况 的 方法 是 : 
当 因 为 一 个 磁盘 驱动 器 或 一 台 cub 计算 机 发 生 故 障 而 引起 一 个 主 块 不 可 用 时 ， 从 它 镜 像 的 二 级 备份 副 
本 中 读 取 数 据 。 前 面 曾经 提 过 ， 二 级 备份 块 比 主 块 小 ， 比 例 为 散 列 因子 4&， 一 个 块 的 二 级 备份 是 分 布 
的 ， 这 样 它们 在 不 同 cub 的 数 个 磁盘 上 。 

当 一 个 cub 计算 机 或 者 磁盘 失效 后 ， 一 个 临近 的 cob 计算 机 会 修改 调度 表 并 显示 数 个 镜像 收看 者 
状态 (mirror viewer state) ， 它 表示 存储 这 些 电影 二 级 备份 的 d 个 磁盘 的 工作 负载 。 镜 像 收看 者 状态 与 
普通 的 收看 者 状态 类 似 ， 但 是 它 具 有 不 同 的 蔽 盘 号 和 时 序 需求 。 因 为 这 一 额外 的 工作 负载 被 4 个 磁盘 
和 个 计算 机 共享 ， 所 以 如 果 在 调度 表 中 发 现 有 空余 能 力 ， 那 么 这 项 任务 就 能 不 中 断 其 他 槽 的 任务 而 
被 容纳 。 一 个 cub 计算 机 的 故障 等 价 于 它 的 所 有 磁盘 出 现 故障 ， 其 处 理 方式 相似 。 

网 络 支持 ”cub 计算 机 只 是 将 每 部 电影 的 块 以 及 相关 客户 的 地 址 信息 传输 到 ATM 网 络 上 。 能 否 按 
顺序 和 及 时 地 向 客户 计算 机 传递 块 ， 依 赖 于 ATM 网 络 协议 的 QoS 保证 。 客 户 需 要 大 到 能 存储 两 个 主 块 
的 缓冲 区 ， 其 中 一 个 块 是 客户 屏幕 上 正在 播放 的 ， 而 另 一 个 块 是 正在 从 网 络 上 到 达 的 。 当 提供 的 是 主 
块 时 ， 客 户 只 需要 检查 每 个 到 达 块 的 序号 ， 并 将 它们 传送 到 显示 处 理 程序 。 当 提供 的 是 二 级 备份 时 ， 
负责 存储 散 列 块 的 4 个 cub 计算 机 负责 将 二 级 备份 顺序 地 传递 到 网 络 上 ， 客 户 负 责 在 缓冲 区 中 收集 和 
组 装 这 些 二 级 备份 。 

其 他 功能 ”我 们 已 经 介绍 过 了 Tiger 服务 器 的 有 严格 时 间 要 求 的 活动 。 设 计 需 求 要 求 提 供 快 进 和 回 
退 。 这 些 功能 要 求 能 将 电影 块 的 某 一 部 分 传递 给 客户 ， 以 便 由 视频 播放 器 提供 一 个 对 用 户 要 求 的 可 视 
反馈 。cub 计算 机 在 非 调度 的 时 间 内 基于 尽力 而 为 方式 实现 这 一 点 。 

剩 下 的 任务 包括 管理 和 分 发 调度 表 以 及 管理 电影 数据 库 ， 其 中 包括 在 磁盘 上 删除 旧 的 电影 、 写 人 
新 的 电影 以 及 维护 电影 的 索引 。 

在 Tiger 系统 的 最 初 实现 中 ，controller 计算 机 处 理 调度 表 的 管理 和 分 发 。 因 为 这 会 导致 单 点 故障 以 
及 潜在 的 性 能 瓶 席 ， 后来， 调度 表 管 理 被 重新 设计 为 一 个 分 布 式 算法 [ Bolosky et al. 1997], cub 计算 
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机 负责 在 非 调度 的 时 间 内 执行 管理 电影 数据 库 的 工作 ， 以 响应 controller 计算 机 发 出 的 命令 。 

性 能 和 可 伸缩 性 ”这 一 系统 的 初始 原型 在 1994 年 被 开发 出 来 ,使 用 了 5 个 133MHz 的 奔腾 PC， 每 
个 PC 上装 有 48MB 的 RAM 和 3 个 2GB 的 SCSI 磁盘 驱动 器 以 及 一 个 ATM 网 络 控制 器 ， 运 行 的 操作 系 
统 是 Windows NT。 通 过 使 用 模拟 的 客户 负载 来 度量 此 系统 的 配置 。 在 无 错 运行 并 且 服 务 的 客户 数目 达 
到 68 时 ，Tiger 系统 的 数据 传递 相当 不 错 一 一 没有 块 被 丢失 或 晚 到 达 客 户 端 。 当 有 一 个 cub 计算 机 失效 
时 《因此 有 3 个 磁盘 失效) ， 服 务 能 维持 ,数据 丢失 率 仅 为 0.02% ， 这 在 设计 目标 内 。 

另外 一 个 度量 是 检查 启动 延迟 ， 该 延迟 表示 系统 收 到 客户 请 求 到 传递 第 一 个 电影 块 之 问 的 时 间 间 
隔 。 它 与 调度 表 中 空闲 模 的 位 置 和 数目 密切 相关 。 最 早 实现 这 项 工作 的 算法 会 将 客户 请 求 放置 在 调度 
表 中 的 一 个 槽 中 ， 这 个 构 是 和 所 请 求 电 影 的 块 0 所 在 的 磁盘 最 近 的 一 个 空闲 模 。 这 导致 启动 延迟 的 度 
量 值 在 2 ~ 12s 范围 内 。 最 近 已 经 研究 出 一 个 权 分 配 算法 [Douceur and Bolosky 1999] ， 它 能 降低 调度 表 
中 被 占据 的 槽 的 聚集 性 ， 使 空闲 的 槽 更 均匀 地 分 布 在 调度 表 中 ， 这 样 可 以 减少 平均 启动 延迟 时 间 。 

尽管 最 初试 验 的 规模 很 小 ， 但 后 来 在 有 14 个 cub 计算 机 、56 个 磁盘 以 及 使 用 了 Bolosky 等 【1997 ] 
的 分 布 式 调度 方案 的 系统 上 又 进行 了 新 的 测量 。 这 个 系统 能 为 之 提供 服务 的 负载 具有 伸缩 性 。 当 所 有 
的 cub 计算 机 都 正常 工作 时 ， 系 统 可 以 同时 发 送 602 个 2Mbps 的 数据 流 ， 委 失 率 小 于 1/180 000。 当 有 
一 个 cub 计算 机 失效 时 ， 数 据 丢失 率 小 于 1/40 000。 这 些 结果 给 人 印象 深刻 ， 可 以 证 明 在 Tiger 系统 使 
用 的 cub 计算 机 数 达到 1000 时 ， 它 可 以 同时 支持 30 000 ~ 40 000 个 收看 者 。 


20. 6.2 BitTorrent 


BitTorrent[ www. bittorrent. com] 是 一 个 流行 的 对 等 文件 共享 应 用 ， 专 门 用 于 下 载 大 型 文件 (包括 视频 文 
件 ) 。 它 并 不 打算 用 于 实时 内 容 流 ， 而 是 用 于 文件 的 初次 下 载 以 便 以 后 回放 。 第 10 章 中 ， 作 为 对 等 文件 共享 
协议 曾 简单 提 到 过 BitTorent。 本 章 将 查看 更 多 BitTorrent 的 设计 细节 ， 重 点 在 对 视频 文件 的 下 载 支持 上 。 

BitTorrent 中 主要 的 设计 特点 是 将 文件 分 割 成 固定 大 小 的 块 (chunk) 和 位 于 对 等 网 络 上 不 同 场地 
的 这 些 块 的 后 续 可 用 性 。 客 户 能 从 不 同 的 场地 并 行 下 载 多 个 块 ， 减 少 了 由 任 一 特定 场地 提供 的 下 载 服 
SHH (OE: BitTorrent 依赖 普通 用 户 机 器 的 能 力 ， 同 时 也 会 有 许多 的 针对 受 欢 迎 文件 的 请 求 ) 。 
这 可 以 与 更 集中 化 的 策略 相 比较 ， 集 中 化 策略 是 客户 从 一 个 服务 器 用 诸如 HTTP 下 载 一 个 文件 。 

更 具体 的 ，BitTorent 协议 按 如 下 方式 操作 : 当 一 个 文件 在 BitTorrent 中 可 用 时 ， 一 个 .torrent 文件 
被 创建 ， 该 文件 拥有 与 该 文件 相关 的 元 数据 ， 包 括 : 

。 文件 的 名 字 和 长 度 ; 

© 跟踪 器 (tracker) 的 位 置 (用 一 个 URL 指定 ) ， 跟踪 器 是 一 个 集中 化 的 服务 器 ， 管理 文件 的 

FR; 

© 与 每 个 块 相关 的 校 验 和 ， 用 SHA-1 散 列 算法 生成 ， 它 使 得 内 容 可 以 由 后 继 下 载 验证 。 

跟踪 器 的 使 用 是 对 纯 对 等 原理 的 一 个 妥协 ,但 这 人 允许 系统 以 一 种 集中 化 的 方式 维护 上 述 信息 变 得 
更 容易 。 

跟踪 器 负责 跟踪 与 一 个 特定 文件 相关 的 下 载 状态 。 为 了 了 解 由 跟踪 器 拥有 的 信息 ， 必 须 后 退 一 步 ， 
考虑 一 下 一 个 给 定 文件 的 生命 周期 。 

从 文件 的 块 角度 看 ， 在 BitTorrent 术语 中 ， 具 有 一 个 文件 完整 版 本 的 一 个 对 等 方 被 称 为 种 子 方 
(seeder) 。 例 如 ， 最 初创 建文 件 的 对 等 方 将 为 文件 的 分 发 提供 最 初 的 种 子 。 想 下 载 一 个 文件 的 对 等 方 称 
为 吸血 方 (leecher)。 一 旦 一 个 吸血 方 下 载 了 与 一 个 文件 相关 的 所 有 块 ， 它 能 变 成 后 继 下 载 的 种 子 方 。 按 
这 种 方式 ， 文件 像 病毒 一 样 在 网 络 上 传播 ， 其 传播 速度 可 由 需求 刺激 形成 的 。 在 此 之 上 ， 跟 踪 茵 按照 相 
关 的 种 子 方 和 吸血 方 维护 一 个 给 定 文件 的 当前 下 载 状态 信息 。 在 BitTorrent 中 ， 上 跟踪 器 加 上 相关 的 种 子 方 
和 吸血 方 被 称 为 该 文件 的 激流 (torrent) (或 群体 (swarm) ) (BitTorrent 术语 的 总 结 参见 图 20-11。) 

当 一 个 对 等 方 想 要 下 载 一 个 文件 ， 它 首先 与 跟踪 器 接触 ， 从 能 支持 下 载 的 对 等 方 集合 的 角度 ， 获 得 
激流 的 部 分 视图 。 在 那 以 后 ， 跟 踪 器 的 工作 就 完成 了 一 它 不 涉及 后 续 对 下 载 的 调度 ， 这 是 涉及 下 载 的 
多 个 对 等 方 的 事 ， 因 此 协议 的 这 部 分 是 去 中 心 化 的 。 之 后 ， 块 可 以 按 任 何 顺序 被 请 求 和 传递 到 发 出 请 求 
的 对 等 方 。( 它 与 CoolStreaming 的 比较 ， 见 20. 6. 3 节 的 方 框 部 分 。) 
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术语 含义 

:torrent 文件 该 文件 维护 可 下 载 文件 的 元 数据 

跟踪 器 一 个 包含 下 载 进展 信息 的 服务 器 

块 文件 的 一 部 分 ， 其 大 小 固定 

种 子 方 拥有 一 个 文件 的 完整 副本 《〈 由 它 的 所 有 块 组 成 ) 的 对 等 方 

吸血 方 下 载 一 个 文件 的 对 等 方 ， 它 当前 拥有 一 部 分 块 

激流 〈 或 群体 ) 下 载 一 个 文件 所 涉及 的 若干 场地 ， 包 括 跟踪 器 、 种 子 方 和 吸血 方 

一 报 还 一 报 在 BitTorrent 中 ， 控 制 下 载 调度 的 激励 机 制 

乐观 不 阻塞 人 允许 新 的 对 等 方 建立 证 书 的 机 制 

越 稀少 者 优先 一 种 调度 机 制 ， 指 BitTorrent 在 其 互 连 的 对 等 方 集合 中 提升 稀有 帧 
的 优先 级 








图 20-11 BitTorrent 术语 


BitTorrent 以 及 许多 对 等 方 协 议 都 依赖 对 等 方 表现 成 “好 公民 ”， 为 系统 提供 贡献 也 从 系统 获取 。 
重要 的 有 是， 系统 有 一 个 内 在 的 激励 机 制 来 奖励 合作 ， 该 机 制 称 为 一 报 还 一 报 (tit-for-tat) 机 制 [Cohen 
2003] 。 非 正式 来 说 ， 这 个 方法 为 以 前 或 正在 站 点 中 进行 上 载 文件 的 下 载 方 提供 优先 权 。 除 了 作为 一 个 
激励 机 制 之 外 ， 一 报 还 一 报 机 制 也 鼓励 下 载 和 上 载 同时 进行 的 通信 和 模式， 从 而 最 优化 使 用 带宽 。 

具体 来 说 ， 给 定 一 个 对 等 方 ， 它 通过 不 阻塞 (unchoking) 其 他 对 等 方 来 支持 从 个 同时 存在 的 对 
等 方 下 载 。 决 定 哪些 对 等 方 不 阻塞 是 根据 不 断 地 对 这 些 对 等 方 的 下 载 率 进行 计算 的 ， 这 个 决策 计算 每 
10s 进行 一 次 。 算 法 也 每 隔 30s 在 一 个 随机 的 对 等 方 实施 乐观 不 阻塞 (optimistic unchoking) 机 制 ， 以 ”[907 
便 允 许 新 的 对 等 方 参与 并 建立 它们 的 证 书 。 注意， 激励 机 制 已 经 是 一 个 重要 的 研究 主题 ， 其 代 蔡 机 制 
也 已 经 提出 ,例如 Sirivianos 等 [2007], BitTorrent 将 该 机 制 与 最 稀少 者 优先 (rarest first) 策略 联合 使 
用 ,同时 用 于 下 载 调 度 ， 最 稀少 者 优先 是 指 一 个 对 等 方 将 提升 与 之 相连 的 对 等 方 集合 中 最 稀有 的 块 的 
优先 级 ， 确 保 不 太 容易 获得 的 块 能 快速 传播 。 


20.6.3 端 系统 多 播 


分 布 式 多 媒体 系统 的 一 个 最 大 的 技术 挑战 是 在 互联 网 上 支持 实时 的 视频 广播 。 这 样 的 系统 在 很 多 
方面 是 高 要 求 的 【Liu et al. 2008]: 

© 系统 必须 能 伸缩 以 接纳 可 能 数量 众多 的 用 户 。 

e 从 资源 使 用 的 角度 ， 这 些 系 统 的 要 求 是 非常 高 的 ， 从 而 给 系统 的 带宽 、 存 储 和 处 理 带 来 很 大 的 

约束 。 

。 必须 满足 严格 的 实时 需求 ， 以 达到 满意 的 用 户 体 验 。 

© 系统 必须 是 有 弹性 的 ， 能 适应 网 络 中 变化 的 条 件 。 

尽管 有 这 些 挑战 ， 现 今 已 经 有 了 重要 的 进展 ， 有 许多 商业 强度 (commercial-strength) 的 服务 可 用 ， 
包括 BBC iPlayer, BoxeeTV [boxee.tv] 和 Hulu [hulu. com] 。 本 节 将 介绍 此 类 系统 的 特点 ， 并 以 这 个 
领域 有 影响 力 的 一 个 系统 为 例 ， 端 系统 多 播 【Liu et al. 2008 ] ， 该 系统 由 CMU FR, WEH Conviva 进 
行商 业 化 运营 [ www. conviva. com] 。 在 查看 ESM 推荐 的 技术 方法 之 前 ， 把 这 个 工作 放 在 相关 系统 研发 
背景 中 看 一 下 是 有 帮助 的 。 

ESM (End System Multicast) 研发 背景 ”正如 4.4.1 节 所 描述 的 那样 ， 互 联网 上 视频 流 的 最 早 实 
验 是 直接 构造 在 IP 多 播 上 的 。 这 个 方法 的 优势 是 多 播 的 支持 可 以 直接 由 系统 的 底层 提供 ， 因 此 ， 能 提 
升 整体 性 能 。 但 这 个 方法 有 许多 缺点 ， 包 括 许多 路 由 器 不 支持 P 多 播 ， 为 支持 多 播 需要 在 路 由 器 内 维 
护 软 状态 。 更 根本 的 问题 是 ， 这 也 违反 2.3.3 节 讨 论 的 端 对 端 原理 ， 该 原理 主张 只 有 基于 通信 系统 端 
点 所 在 的 应 用 的 知识 和 帮助 ， 才 能 完全 和 可 靠 地 实现 对 通信 功能 的 支持 〈 本 例 中 ， 指 多 媒体 流 ) 。 

结果 ， 现 在 大 多 数 系统 主张 对 视频 流 使 用 端 系统 方法 〈end-system approach), ERRATE, E 
能 和 控制 驻 留 在 网 络 的 边缘 而 非 网 络 中 。 这 个 方法 也 称 为 应 用 层 多 播 〈(application-level multicast), 4 
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用 了 履 盖 网 络 支持 相关 的 多 媒体 流量 〈 人 参见 4. 5 节 对 覆盖 网 络 的 讨论 ) 。 

更 进一步 来 说 ， 在 支持 互联 网 多 媒体 广播 方面 ， 对 等 方法 对 此 有 相当 大 的 兴趣 。ESM 是 此 类 系统 
的 一 个 成 功 典范 。 更 特别 的 ，ESM 采用 结构 化 对 等 技术 ， 其 中 ， 对 等 方 组 成 一 个 树 结构 ， 用 于 后 续 的 
媒体 的 实时 传递 。 作 为 由 ESM 倡导 的 结构 化 方法 的 一 个 替换 方法 ，CoolStreaming 建立 在 BitTorrent ( 参 
见 20.6.2 节 的 讨论 ) 的 基础 之 上 ， 提 供 了 一 个 无 结构 的 方法 (其 细节 参见 20. 6. 3 节 方 框 部 分 ) 。 

许多 系统 采用 端 系统 方法 学 (不 是 用 对 等 方法 ) ， 其 提供 一 个 固定 的 基础 架构 ， 维 护 位 于 互联 网 
结 点 上 的 多 媒体 (或 其 他 ) 内 容 的 多 个 拷贝 ， 从 而 支持 更 快 的 传递 。 这 些 系统 被 称 为 内 容 分 发 网 络 
(content distribution network ，CDN) ， 成 功 案例 有 Akamai[ www. akamai. com], Coral [ www. coralcdn. org ] 
和 Kontiki[ www. kontiki. com] 。 这 样 的 系统 支持 多 种 风格 的 内 容 传递 ， 包 括 Web 加 速 〈 改 善 访问 Web 
内 容 时 的 性 能 ) 和 视频 流 一 一 例如 ，BBC iPlayer 最 早 的 版 本 使 用 了 Kontiki。 

图 20-12 总 结 了 支持 实时 多 媒体 流 的 技术 范畴 。 


实时 视频 流 








Akamai 
Coral 
Kontiki 






ESM CoolStreaming 
图 20-12 实时 视频 流 方法 


ESM 体系 结构 ESM 是 一 个 结构 化 对 等 解决 方案 ， 用 于 互联 网 上 的 视频 实时 多 播 。 这 个 方法 最 初 
TER ASE - 梅 隆 大 学 作为 研究 工作 的 一 部 分 而 开发 ， 该 研究 调研 了 用 端 系统 方法 实现 多 播 的 特点 ， 最 初 
的 原型 被 用 于 许多 主流 会 议 的 实时 流 视频 ， 包括 SIGCOMM、INFOCOM 和 NOSSDAV [ esm. cs. cmu. edu ] 。 
正如 上 面 提 到 的 ， 这 个 方法 已 经 由 Conviva 商业 化 了 [www. conviva. com ] ， 该 公司 最 近 与 NBC Universal 
达成 协议 , 使 用 Conia PA (BP C3) 在 互联 网 上 传递 它 的 内 容 。 

除了 调研 端 系统 方法 ,. ESM 的 另 一 个 关键 目标 是 通过 自 组 织 寻找 对 改变 的 应 变 能 力 。 特 别 是 ， 底 
层 协 议 用 于 恰当 地 处 理 结 点 的 动态 加 入 和 离开 、 结 点 的 故障 以 及 底层 网 络 配置 和 性 能 的 改变 。 特 别 是 ， 
他 们 推进 了 性 能 感知 的 自 适应 (performance-aware adaptation) ， 经 常 重 评估 与 对 等 系统 相关 的 覆盖 网 结 
构 以 最 大 化 整体 性 能 。 我 们 下 面 讨论 如 何 实 现 这 点 。 

ESM 为 每 个 视频 流 构造 一 棵 树 ， 以 视频 流 的 源 为 根 ， 并 
基于 此 运行 。 支 持 ESM 运行 的 关键 算法 元 素 是 : 

。 如 何 维护 成 员 信息 ; 

© 如 何 处 理 加 入 树 的 新 的 对 等 方 ; 

e 如 何 处 理 离开 树 的 对 等 方 〈 正 常 离 开 或 是 因为 故障 

离开 ) ; 

。 如 何 为 了 性 能 修改 树 结构 (上 面 提 到 的 性 能 感知 的 自 

适应 ) 。 

下 面 我 们 逐一 处 理 。 在 每 个 描述 中 ， 我 们 以 图 20-13 中 的 
树 结 构 为 例子 ， 该 结构 正在 传递 一 个 前 面 提 到 的 音乐 家 现场 图 20-13 ESM 中 树 的 示例 
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演奏 流 (20. 1 节 )。 


CoolStreaming: 实现 视频 流 的 一 个 非 结 构 化 P2P 方法 

许多 实现 视频 流 的 方法 是 基于 一 个 结构 化 对 等 方法 ， 例 如 构造 一 棵 树 ， 像 在 ESM 中 一 样 ， 或 
另 一 个 覆盖 网 结构 ， 如 一 个 森林 (不 相交 树 的 并 集 ) 或 一 个 网 格 。CoolStreaming [ Zhang et 
al. 2005b] 采取 了 一 个 彻底 不 同 的 、 非 结构 化 方法 实现 视频 流 ， 其 创建 者 称 其 为 以 数据 为 中 心 的 方 
法 (data-centric approach) 。 在 CoolStreaming 中 ， 结 点 维护 成 员 的 部 分 神 图 ， 并 用 闲聊 协议 进行 周 
期 性 更 新 (与 ESM 一 样 ) 。 当 一 个 新 的 对 等 方 加 入 时 ， 它 首先 接触 具有 想得到 的 视频 流 的 源 结 点 
(假设 它 将 被 广播 )， 然 后 ， 这 个 结 点 随机 地 从 它 已 知 的 成 员 和 集合 中 选取 一 个 结 点 作为 代理 (平衡 
所 有 成 员 的 负载 )。 接 着 ， 新 结 点 从 代理 获得 合作 者 的 初始 集合 ， 并 将 它们 引导 到 系统 。 必 须 强 
调 ， 不 像 基 于 树 的 方法 ， 合 作者 集合 没有 隐 含 着 针对 下 载 的 父子 关系 ; 相反 ， 下 载 调度 由 数据 可 用 
性 动态 决定 和 驱动 ， 上 其 体 解 释 如 下 : 

在 CoolStreaming 中 ， 一 个 视频 文件 可 分 成 若干 固定 大 小 的 段 (segment), XA BitTorrent 一 
样 。 每 个 对 等 方 创建 一 个 缓冲 区 了 映射， 表示 文件 的 段 的 本 地 可 用 性 ， 并 且 与 它 所 知道 的 合作 者 交换 
该 信息 。 这 个 信息 接着 被 用 于 获得 一 个 给 定 视频 源 的 所 有 必需 的 段 。 到 目前 为 止 ， 都 看 上 去 非常 像 
BitTorrent， 但 有 两 个 关键 的 不 同 ， 这 两 个 不 同 是 由 实时 流 需求 驱动 的 。 第 一 ，BitTorent 能 按 任何 
顺序 下 载 块 ，CoolStreaming 必须 满足 视频 回放 所 期 望 的 实时 约束 。 第 二 ， 在 任 一 给 定时 间 内 ，Cool- 
Streaming 仅 对 从 现在 到 将 来 很 短 的 一 个 滑动 窗口 (sliding window) (实际 上 ， 活 动 窗口 包含 120 个 
1 秒 的 段 ) 感 兴趣 而 非 整个 文件 。 相 关 调度 的 计算 对 CoolStreaming 的 操作 是 关键 的 ， 虽 然 找 到 最 优 
解决 方案 是 个 NP 难 问 题 ， 但 CoolStreaming 基于 段 可 能 提供 者 的 数量 、 提 供 者 带宽 和 处 理 请 求 的 可 
用 时 间 等 因素 采用 了 一 套 成 功 的 启发 式 方法 。 

最 终 的 结果 是 一 个 分 布 式 系 统 体 系 结构 ， 它 能 满足 视频 流 的 实时 需求 ， 可 以 更 自然 地 从 结 点 失 
效 和 网 络 性 能 或 可 用 性 的 改变 中 恢复 。 


成 员 管理 ”每 个 结 点 维护 树 成 员 的 一 个 局 部 视图 ， 该 视图 通过 闲聊 协议 〈 该 协议 是 对 等 结构 中 维 
护 组 成 员 的 一 个 常用 方法 ， 相 关 描 述 见 18. 4 节 ) 进行 周期 性 更 新 。 它 的 操作 方式 如 下 : 每 个 成 员 周期 
性 选 一 个 组 成 员 并 发 送 自己 的 组 成 员 视图 的 子 集 给 这 个 成 员 ， 同 时 ， 用 它 最 后 一 次 从 每 个 成 员 听 到 的 
信息 进行 注释 。 因 此 ， 没 有 关于 组 成 员 信息 的 一 个 一 致 的 全 局 视图 ， 但 这 个 部 分 视图 对 于 协议 的 操作 
来 说 足够 了 ， 下 面 的 叙述 将 说 明 这 点 。 

加 入 树 ”假设 广播 了 源 结 点 ( 树 根 ) ， 因 此 整个 系统 都 知道 源 结 点 。 一 个 想 要 加 入 的 新 结 点 与 源 
结 点 接触 ， 并 从 源 结 点 维护 的 组 视图 中 获得 一 个 随机 选择 的 结 点 集 。 这 些 结 点 集 是 新 结 点 的 有 效 候选 
父 结 点 ， 新 结 点 必须 从 这 个 可 能 集合 中 选 出 一 个 合适 的 父 结 点 。 

父 结 点 选择 (parent selection) 协议 对 ESM 的 操作 是 关键 的 ， 总 的 目标 是 为 提升 性 能 (特别 是 ， 
如 我 们 将 要 看 到 的 ， 首 先 为 了 吞吐 量 ， 其 次 是 为 了 延迟 ) 而 优化 树 。 

父 结 点 选择 的 第 一 个 阶段 是 探查 源 结 点 提供 的 成 员 集 ， 并 收集 每 个 候选 父 结 点 的 下 列 信息 : 

。 结 点 当前 的 性 能 〈 按 从 这 个 结 点 到 源 结 点 的 吞吐 量 和 延迟 ); 

。 结 点 的 饱和 度 〈 按 它 已 经 支持 的 孩子 的 数量 ) 。 

从 探查 获得 的 参数 ， 它 也 可 能 确定 从 新 结 点 到 不 同 候选 结 点 之 间 的 往返 延迟 。 

新 结 点 删除 其 认为 但 和 【该 值 用 一 个 内 置 的 参数 定义 ) 的 候选 结 点 ， 接 着 按 吞 吐 量 和 延迟 预测 它 
从 每 个 候选 父 结 点 能 期 望 得 到 的 服务 。 吞 吐 量 用 那个 候选 父 结 点 所 达到 的 吞吐 量 和 从 新 结 点 到 那个 候 
选 父 结 点 的 历史 数据 (这 个 数据 可 以 获得 ， 如 果 新 结 点 以 前 已 经 连接 到 这 个 候选 结 点 ) 的 最 小 值 估 
计 ， 延迟 的 估计 是 基于 从 源 结 点 所 报告 的 延迟 和 通过 探测 获得 的 延迟 的 总 和 。 父 结 点 选择 是 基于 到 新 
结 点 的 最 佳 可 用 带宽 ， 如 果 带 宽 信 息 不 可 用 ,那么 父 结 点 选择 根据 延迟 数据 做 出 。 

返回 图 20-13 的 例子 ， 假 设 一 个 新 结 点 G 想 要 加 入 这 个 视频 流 。G 与 源 结 点 5 接触 ， 然 后 G〔 随 
机 地 ) 给 予 了 下 列 结 点 集 |A, C, E, Fjo 马上 被 删除 了 ， 因 为 它 被 认为 是 饱和 的 (假设 饱和 的 定 
义 是 有 三 个 孩子 ) ， 而 C 报告 其 吞吐 量 较 低 ， 可 能 因为 A 饱和 了 。 剩 下 就 要 在 结 点 上 和 下 之 间 进 行 选 
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择 ,最 后 ， 因 为 被 报告 具有 最 好 的 可 用 的 吞吐 量 数值 (可 能 EE 和 下 之 间 的 连接 是 一 条 相对 低 带 宽 的 
连接 )， 所 以 下 REY, 以 前 也 连接 到 卫 ， 并 曾经 有 好 的 吞吐 量 特征 。 

处 理 结 点 离开 成 员 能 离开 一 个 树 ， 或 通过 一 个 显 式 的 离开 请 求 或 因为 故障 而 离开 。 在 前 一 种 情 
况 下 ， 为 了 避免 中 断 ， 离 开 成 员 通知 它 的 孩子 它 正在 离开 ， 并 期 望 保持 传递 数据 一 段 时 间 ， 避 免 服 务 
中 断 沿 树 向 下 发 展 。 在 后 一 种 情况 下 ， 成 员 周 期 性 发 送 die 消息 给 它 的 孩子 ， 当 这 些 消 息 没 有 收 到 的 
时 候 ， 故 障 就 被 检测 出 来 了 。 

在 这 两 种 情况 下 ， 所 有 和 孩子 必须 调用 上 面 定义 的 父 结 点 选择 过 程 ， 再 加 上 额外 的 检查 ， 确 保 候选 
的 父 结 点 不 是 给 定 结 点 的 后 代 。 

假设 在 G 加 入 树 后 不 入 ， 结 点 出 故障 了 。 在 这 种 情况 ，F 和 G 都 必须 运行 父 结 点 选择 算法 来 重 
新 建立 连接 。 

性 能 感知 的 自 适应 ”每 个 结 点 连续 地 监控 它 从 父 结 点 得 到 的 服务 (如 上 所 述 ,保存 历史 信息 以 便 
将 来 引用 ) 。 如 果 速 率 被 检测 大 大 下 降 并 低 于 源 结 点 期 望 的 速率 ， 那 么 将 触发 自 适应 策略 。 为 了 避免 反 
复 ， 在 进行 自 适应 之 前 ， 一 个 结 点 必须 等 待 一 段 特定 的 时 间 ， 称 为 检测 时 间 (detection time) 。 

一 且 做 出 了 自 适 应 的 决定 ， 结 点 将 调用 父 结 点 选择 算法 来 确定 一 个 新 的 、 更 优化 的 父 结 点 。 按 这 
种 方式 ， 树 构造 被 不 断 地 重新 评估 ， 并 进行 自 组 织 以 优化 整体 性 能 。 

例如 ， 过 了 一 段 时 间 ，C 可 以 兰 断 通过 A 接收 到 的 吞吐 量 是 不 满意 的 ， 并 运行 父 结 点 选择 算法 ， 
导致 C 成 为 的 孩子 。 


20.7 小 结 


多 媒体 应 用 程序 需要 新 的 系统 机 制 以 保证 它们 能 处 理 大 量 的 时 间 相 关 数 据 。 这 些 机 制 最 重要 的 一 
点 是 服务 质量 管理 。 它 们 必须 合理 地 分 配 带宽 和 其 他 资源 以 保证 应 用 程序 的 资源 需求 得 到 满足 ， 同 时 
它们 必须 对 这 些 资 源 的 使 用 进行 调度 ， 这 样 ， 多 媒体 应 用 程序 的 许多 细 粒 度 的 截止 期 可 以 得 到 满足 。 

服务 质量 管理 处 理应 用 程序 提出 的 QoS 请 求 ， 这 一 请 求 指定 了 多 媒体 流 可 接受 的 带宽 、 延 迟 和 
丢失 率 ， 它 执行 许可 控制 ， 决 定 是 否 有 足够 的 未 预 留 资源 来 满足 新 的 请 求 并 在 必要 时 与 应 用 程序 进 
行 协商 。 一 旦 系统 接受 了 应 用 程序 的 QoS 请求， 其 资源 就 被 观 留 ， 同 时 系统 给 应 用 程序 发 送 一 个 保 
证 信息 。 

必须 调度 分 配给 应 用 程序 的 处 理 器 的 处 理 能 力 和 网 络 带宽 以 满足 应 用 程序 的 需要 。 需 要 像 最 早 截 
止 期 优先 和 速率 单调 这 样 的 实时 处 理 器 调度 算法 以 保证 及 时 地 处 理 每 个 流 元 素 。 | 

流量 调整 是 一 个 名 字 ， 它 给 予 缓冲 实时 数据 的 算法 ,算法 的 目的 是 平滑 数据 流 中 数据 元 素 之 间 的 
间隔 时 间 的 不 均匀 ， 而 这 种 不 均匀 是 不 可 避免 的 。 通 过 减少 源 端 的 带宽 (调整 或 减少 中 间 结 点 的 带 
BE (过滤 )， 流 可 以 被 调整 以 适应 较 少 的 资源 。 

Tiger 视频 文件 服务 器 是 可 伸缩 系统 的 一 个 很 好 的 例子 ， 它 能 大 范围 地 提供 具有 较 强 服务 质量 的 流 
传递 。 它 的 资源 调度 方法 相当 特别 ， 在 这 类 系统 经 常 要 求 的 设计 方法 改变 方面 ， 它 提供 了 一 个 很 好 的 
例子 。 其 他 两 个 实例 研究 ，BitTorrent 和 ESM， 也 是 强 有 力 的 例子 ， 分 别提 供 对 视频 数据 的 下 载 支持 和 
实时 流 的 支持 ， 这 些 例子 再 次 强调 了 多 媒体 对 系统 设计 的 影响 。 


练习 
20. 1 简要 描述 一 个 支持 分 布 式 音乐 演奏 的 排练 系统 。 请 对 这 一 系统 可 能 使 用 的 QoS 需求 以 及 硬件 和 软件 
配置 提出 建议 。 (第 884 页 ， 第 889 页 ) 
20. 2 ”当前 互联 网 没有 任何 提供 资源 预 留 或 服务 质量 管理 设施 。 现 有 的 基于 互联 网 的 音频 和 视频 流 应 用 程 
序 如 何 获得 可 接受 的 服务 质量 ? 在 多 媒体 应 用 程序 中 所 采用 的 解决 方法 ， 有 哪些 局 限 人 性 ? 
(第 884 页 , 第 893 页 ， 第 899 页 ) 
20.3 ”请 说 明 分 布 式 多 媒体 应 用 程序 可 能 需要 的 三 种 形式 的 同步 〈 分 布 式 状态 同步 、 媒 体 同 步 和 外 部 同 
步 ) 之 间 的 区 别 。 对 于 一 个 视频 会 议 应 用 程序 而 言 ， 请 对 其 实现 同步 的 机 制 提出 自己 的 建议 。 
(第 885 页 ) 


20. 4 


20. 5 


20. 6 


20.7 


20. 8 


20. 9 
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假设 有 一 个 由 AM 网 络 连 接 多 个 桌面 计算 机 以 支持 多 个 并 发 的 多 媒体 应 用 程序 的 系统 ， 简 要 描述 其 
QoS 管理 器 的 设计 。 为 你 描述 的 QoS 管理 器 定义 API 接口 ， 也 就 是 ， 给 出 其 主要 操作 以 及 相应 的 参 


数 和 可 能 返回 的 结果 。 (第 889 ~891 页 ) 
为 了 给 出 处 理 多 媒体 数据 的 软件 组 件 的 资源 需求 ， 我 们 需要 估计 其 处 理 负载 。 如 何在 合理 的 开销 下 
获得 这 种 信息 ? (第 889 ~891 页 ) 
当 有 大 量 的 客户 在 不 确定 的 时 间 访 问 同一 部 电影 时 ，Tiger 系统 如 何 处 理 ? (第 901 ~906 页 ) 


Tiger 系统 的 调度 表 是 一 个 大 的 数据 结构 ， 并 且 被 频繁 地 更 新 ， 但 是 每 一 个 cub 计算 机 需要 获得 它 当 
前 处 理 的 部 分 在 调度 表 中 的 最 新 信息 。 请 设计 一 个 为 cub 计算 机 分 布 调度 表 的 机 制 。 

(第 901 ~906 页 ) 
当 Tiger 系统 要 对 一 个 失效 的 磁盘 或 cub 计算 机 进行 操作 时 ， 系 统 使 用 二 级 备份 数据 块 来 代替 丢失 的 
主 数据 块 。 二 级 备份 块 比 主 数据 块 小 n 倍 (n 是 散 列 因子 ) 。 系 统 如 何 适应 块 的 大 小 改变 ? 

(第 905 页 ) 

请 讨论 与 更 传统 的 顺序 下 载 方法 相 比 ，BitTorrent 中 越 稀少 者 优 先 下 载 策略 的 相对 优点 。 

(第 906 ~908 页 ) 


20.10 除了 Tiger 系统 (参见 习题 20.6) ，ESM 和 CoolStreaming 也 都 支持 大 量 用 户 对 同一 电影 的 流 访 问 。 


讨论 ESM 和 CoolStreaming 所 采取 的 管理 并 发 访问 的 策略 ， 比 较 它们 的 方法 与 Tiger 主张 的 方法 。 
(第 901 ~906 T, 第 908 ~912 页 ) 
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分 布 式 系统 设计 : Google 实例 研究 


创造 一 个 有 效 设 计 的 能 力 是 分 布 式 系统 中 一 项 十 分 重要 的 技能 ， 这 不 仅 需 要 对 本 书 描述 的 所 有 不 
同 的 技术 选择 有 所 了 解 ， 还 需要 对 相关 应 用 程序 领域 的 需求 有 深刻 的 理解 。 通 过 结合 一 致 且 完整 的 设 
计 选 择 ， 最 终 目 标 是 设计 出 一 套 能 够 解决 所 有 需求 的 分 布 式 系统 体系 结构 。 这 是 一 项 艰巨 的 任务 ， 需 
要 有 相当 丰富 的 分 布 式 系统 开发 经 验 。 

我 们 通过 一 个 实例 研究 来 前 明 分 布 式 设计 。 我 们 详细 查看 了 Google 基础 设施 ， 即 一 个 平台 和 相关 
中 间 件 的 设计 ， 它 们 支持 Google 搜索 、 一 些 相关 的 Web 服务 以 及 包括 Google Apps 在 内 的 应 用 程序 。 
具体 研究 的 关键 底层 组 件 包括 支撑 Coogle 的 物理 基础 设施 、Google 基础 设施 提供 的 通信 范 型 以 及 与 存 
储 和 计算 相关 的 核心 服务 。 

本 章 重点 集中 在 Google 基础 设施 后 面 的 关键 的 设计 原则 ， 以 及 它们 如 何 渗透 到 系统 体系 结构 中 ， 
形成 一 个 一 致 旦 有 效 的 设计 。 


21.1 简介 


本 书 重 点 关注 了 支撑 分 布 式 系统 发 展 的 重要 概念 ， 强 调 了 分 布 式 系统 的 主要 挑战 ， 包 括 异 构 性 、 
开放 性 、 安 全 性 、 可 伸缩 人 性、 故障 处 理 、 并 发 、 透 明 性 以 及 服务 质量 。 后 续 部 分 着 重 关注 于 分 布 式 系 
统 的 组 成 部 分 ， 包 括 : 通信 范 型 〈 例 如 远程 调用 及 其 间接 方式 ) ; 对 象 、 组 件 或 者 Web 服务 提供 的 编 
程 抽象 ;， 对 特定 的 分 布 式 系 统 服务 如 安全 、 命 名 以 及 文件 系统 的 支持 ; 协调 和 协定 等 方面 的 算法 方案 ， 
等 等 。 然 而 ， 考 虑 分 布 式 系统 的 总 体 设计 以 及 这 些 组 成 部 分 如 何 协 调 工 作 是 同等 重要 的 ， 为 了 满足 大 
规模 应 用 领域 以 及 操作 环境 的 需求 ， 在 进行 系统 体系 结构 整体 设计 时 将 必须 针对 不 同 的 挑战 进行 权衡 。 
对 分 布 式 系 统 设 计 方 法 的 更 详尽 的 讨论 将 把 我 们 带 到 分 布 式 系统 的 软件 工程 方法 学 领域 ， 这 超出 了 本 
书 的 范围 ， 感 兴趣 的 读者 可 以 参考 下 面 给 出 的 一 些 相关 话题 和 资源 。 相 比 之 下 ， 我 们 通过 对 一 个 复杂 
的 分 布 式 系 统 进行 实例 研究 来 提供 这 个 领域 的 洞察 力 ， 期 间 ， 我 们 特别 突出 了 分 布 式 系统 设计 所 涉及 
的 关键 决策 和 权衡 。 

为 了 激发 读者 学 习 本 书 的 兴趣 ， 第 1 章 概述 了 代表 分 布 式 系统 中 许多 主要 挑战 的 关键 应 用 领域 的 
三 个 例子 : Web 搜索 、 大 型 多 人 在 线 游戏 以 及 金融 交易 。 我 们 本 可 以 在 上 述 三 个 领域 中 任意 挑选 一 个 ， 
并 展开 有 启发 性 的 实例 研究 ， 但 最 终 选择 将 精力 集中 在 第 一 个 : Web 搜索 (实际 上 ， 我们 所 关注 的 已 
超越 了 网 络 搜索 ， 还 包括 对 基于 Web 的 云 服 务 的 更 通用 的 支持 )。 特 别 是 ， 在 本 章 中 我 们 对 支撑 
Google 的 分 布 式 系统 基础 设施 展开 了 研究 (此 后 将 称 为 Google 基础 设施 ) Google 是 当今 正在 使 用 的 
最 大 的 分 布 式 系统 之 一 ， 并 且 Google 基础 设施 成 功 地 应 对 了 大 量 高 要 求 需 求 ， 这 些 需 求 将 在 下 面 讨 
论 。 底 层 的 体系 结构 和 概念 的 选择 也 非常 有 趣 ， 本 章 挑选 了 本 书 中 涉及 的 一 些 核 心 的 主题 。 因 此 ， 
Google 基础 设施 的 实例 研究 让 读者 以 完美 的 方式 结束 分 布 式 系统 的 学 习 。 注 意 ， 除 了 作为 如 何 支持 
Web 搜索 的 例子 之 外 ，Google 基础 设施 还 是 云 计算 的 领先 例子 ， 这 将 在 下 面 的 介绍 中 显现 出 来 。 


分 布 式 系统 的 软件 工程 

我 们 向 读者 介绍 该 领域 中 已 取得 的 重要 进展 ， 例 如 : 

。 面向 对 象 设 计 ， 包 括 使 用 建 模 符号 ， 例 如 UMLI Booch et al. 2005]; 

。 基于 组 件 的 软件 工程 (Component-Based Software Engineering，CBSE) ， 及 其 与 企业 体系 结构 
的 关系 [Szyperski 2002 ] ; 

针对 分 布 式 系 统 的 体系 结构 模式 [ Bushmann et al. 2007] ; 

寻求 生成 复杂 系统 的 模型 驱动 工程 (包括 从 更 高 层 的 抽象 (模型 ) 得 到 的 分 布 式 系统 ) 
[ France and Rumpe 2007 ] 。 























[916} 
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21.2 节 初 步 介绍 了 实例 研究 BART Google 的 背景 信息 。21. 3 WRAT Google 基础 设施 的 整体 设 
计 ， 既 考虑 了 底层 的 物理 模型 ， 又 考虑 了 相关 的 系统 体系 结构 。21. 4 节 研 究 了 系统 体系 结构 的 最 底 
层 ， 即 由 Google 的 基础 设施 支持 的 通信 范 型 。 随 后 的 21.5 节 和 21.6 节 讨 论 了 Google 基础 设施 提供 的 
核心 服务 ,介绍 了 海量 数据 的 存储 和 处 理 的 特点 。21. 3 ~21.6 节 共 同 描述 了 一 个 为 Web 搜索 和 云 计算 
提供 完整 的 中 间 件 的 解决 方案 。 最 后 ，21.7 节 总 结 了 Google 基础 设施 中 出 现 的 关键 点 。 在 整个 实例 研 
究 中 ， 重 点 将 放 在 如 何 识 别 、 判 断 核心 设计 决策 以 及 如 何在 设计 中 进行 权衡 。 


21.2 实例 研究 简介 : Google 


Google[ www. google. com] 是 美国 的 一 家 公司 ， 总 部 位 于 加 利 福 尼 亚 州 山 景 城 (Mountain View) 
(总 部 名 为 the Googleplex) ， 提 供 互 联网 搜索 和 更 广泛 的 网 络 应 用 ， 并 且 通 过 这 些 服 务 中 的 广告 获得 了 
巨额 收入 。 公 司 名 字 是 在 单词 googl 上 做 了 一 个 文字 游戏 〈googoel 表示 10, HN 1 后 面 跟 100 个 0)， 
以 此 来 强调 现在 互联 网 上 可 用 信息 的 庞大 规模 。Google 的 使 命 就 是 “驯服 ”这 个 庞大 的 信息 体 : “组 
织 全 世界 的 信息 ， 以 使 得 这 些 信 息 可 访问 并 且 有 用 ” [ www. google. com I]. 

Google 源 自 于 斯 坦 福 大 学 的 一 个 研究 项 目 ， 并 于 1998 年 成 立 公 司 。 从 那 时 起 ， 它 已 成 长 为 一 个 拥有 
互联 网 搜索 市 场 主导 份额 的 公司 ， 这 主要 归功 于 其 搜索 引擎 底层 使 用 的 排名 算法 的 有 效 性 (下 面 将 进 一 
步 讨论 )。 更 重要 的 是 ，Google 已 经 多 元 化 ,在 提供 搜索 引擎 的 同时 ， 目 前 已 是 云 计 算 的 主要 参与 者 。 

从 分 布 式 系统 的 角度 看 ，Google 提供 了 一 个 极 具 魅 力 的 实例 研究 ， 它 能 处 理 极为 苛刻 的 高 需求 ， 
特别 是 在 可 伸缩 性 、 可 靠 性 、 性 能 以 及 开放 性 方面 (参见 1.5 节 对 这 些 挑战 的 讨论 )。 例 如 ， 值 得 注意 
的 是 ， 随 着 公司 的 扩展 ， 搜 索 方面 的 底层 系统 已 成 功 地 从 1998 年 最 初 的 生产 系统 扩展 到 了 2010 年 年 
底 能 处 理 每 月 超过 880 亿 的 搜索 量 的 搜索 引擎 。 在 此 期 间 ， 主 搜索 引擎 从 来 没有 出 现 过 中 断 ， 并 且 用 
户 可 期 望 在 大 约 0. 2 秒 获得 查询 结果 [ googleblog. blogspot.com 工 ] 。 本 章 的 实例 研究 将 分 析 Google 成 
功 背 后 的 策略 和 设计 决策 ， 并 提供 对 复杂 的 分 布 式 系统 设计 的 见解 。 

在 进行 实例 研究 之 前 ， 更 详细 地 了 解 搜索 引擎 并 且 把 Googe 看 做 云 服务 提供 商 是 很 有 益 的 。 

Google 搜索 引擎 Google 搜索 引擎 的 作用 ， 与 任何 Web 搜索 引擎 的 作用 一 样 ， 对 于 一 个 给 定 的 查 
询 ， 通 过 搜索 We 的 内 容 来 匹配 该 查询 ， 然 后 将 匹配 的 最 相关 的 结果 以 有 序列 表 方 式 返回 。 其 中 的 挑 
战 来 自 Web 的 规模 和 变化 率 ， 同 时 要 求 从 用 户 的 角度 出 发 提供 最 相关 的 结果 。 

下 面 我 们 简要 概述 一 个 Google 搜索 操作 的 运作 ， 关 于 Google 搜索 引擎 运作 的 更 全 面 描述 可 以 在 
Langville 和 Meyer [2006] 中 找到 。 作 为 一 个 运行 实例 ， 我 们 考虑 搜索 引擎 是 如 何 响应 “distributed sys- 
tems book” 这 个 查询 的 。 

以 下 将 介绍 组 成 底层 搜索 引擎 的 一 系列 服务 ， 包 括 对 Web 进行 抓 了 到、 对 发 现 的 网 页 建立 索引 和 排序 。 

HR (crawling); 疏 虫 的 任务 是 定位 和 检索 Web 的 内 容 ， 并 将 内 容 传递 给 索引 子 系统 。 这 是 通过 一 个 
名 为 Googlebot 的 软件 服务 来 完成 的 ， 该 服务 递归 地 读 取 给 定 网 页 ， 获 取 该 网 页 上 的 所 有 链接 ， 通 过 调度 在 
这 些 链 接 上 进行 进一步 的 “ 抓 取 ”。( 名 为 深度 搜索 的 技术 ， 在 到 达 Web 上 几乎 所 有 页 面 方面 是 十 分 有 效 的 。) 

在 过 去 ， 由 于 Web 的 规模 小 ， 看 虫 一 般 每 隔 儿 个 星期 执行 一 次 。 然 而 ， 对 于 某 些 网 页 来 说 ， 这 是 
不 够 的 。 例 如 ， 能 够 准确 地 报告 突 发 新 闻 或 变化 的 股价 对 于 搜索 引擎 来 说 是 非常 重要 的 。 因 此 Google- 
bot 记录 网 页 改变 的 历史 ， 在 一 段 时 间 内 以 大 约 和 页 面 的 更 新 频率 成 正比 的 方式 重新 访问 改变 的 页 面 。 
随 着 在 2010 年 引 人 Caffeine 系统 [ googleblog. blogspot. com I[ ] ， 为 了 使 搜索 结果 更 新 ，Google 已 经 从 批 
处 理 方法 的 疏 虫 行为 转变 为 一 种 更 为 连续 的 抓 取 过 程 。Caffeine 采用 了 一 个 新 的 基础 设施 服务 ， 称 为 过 
滤器 (Percolator) ， 它 支持 大 型 数据 集 的 增 量 更 新 [Peng and Dabek 2010], 

索引 (indexing) ， 虽 然 抓 取 在 了 解 Web 内 容 方面 有 非常 重要 的 作用 ， 但 它 并 不 能 真正 帮助 我 们 搜 
# “distributed systems book” 在 Web 内 容 中 的 出 现 。 为 了 了 解 这 是 如 何 处 理 的 ， 我 们 需要 对 索引 有 更 
为 仔细 的 了 解 。 1 

索引 的 作用 和 图 书后 面 的 索引 类 似 ， 它 为 Web 内 容 产生 索引 ， 不 过 规模 要 大 得 多 。 更 确切 地 说 ， 建 立 
的 是 个 排 索 引 (inverted index) ， 它 是 网 页 和 其 他 文本 型 Web 资源 (包括. pdf、. doc 和 其 他 格式 的 文档 ) 上 
的 单词 到 文档 中 出 现 该 单词 的 位 置 的 映射 ， 包 括 文档 中 的 准确 位 置 和 其 他 相关 信息 ， 如 字体 大 小 和 大 小 写 
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(用 来 决定 单词 的 重要 性 ， 接 下 来 将 会 详 述 ) 。 该 索引 也 被 排序 以 便 支 持 根据 单词 的 位 置信 息 进行 高 效 查 询 。 

除了 维护 对 单词 的 索引 ，Google 搜索 引擎 还 维护 了 对 链接 的 索引 ， 跟 踪 哪 些 页 面 链接 到 一 个 给 定 
的 站 点 。 这 个 索引 被 用 于 PageRank 算法 中 ， 下 面 将 会 进行 讨论 。 

我 们 回 到 刚才 的 查询 例子 。 倒 排 索 引 使 我 们 发 现 包含 搜索 术语 “distributed”、“systems” 和 
“book” 的 网 页 ， 通 过 仔细 分 析 ， 我 们 能 够 发 现 包 括 所 有 三 个 术语 的 网 页 。 例 如 ， 搜 索引 擎 能 够 识别 出 
在 amazon. com, www. cdk5. net 和 其 他 很 多 网 站 上 含有 这 三 个 术语 。 通 过 使 用 索引 ， 可 以 缩小 候选 网 页 
的 集合 。 候 选 网 页 可 能 从 数 十 亿 缩小 到 数 万 ， 最 终结 果 取 决 于 所 选择 的 关键 字 的 区 分 度 。 

排名 (ranking) : 索引 本 身 存 在 的 问题 是 ， 它 没有 提供 包含 这 些 特 定 关键 字 的 网 页 的 相对 重要 性 
的 信息 一 一 但 是 这 在 决定 一 个 搜索 与 一 个 给 定 网 页 的 潜在 相关 性 上 有 着 重要 意义 。 因 此 ， 所 有 现代 的 
搜索 引擎 都 强调 排序 系统 的 重要 性 ， 即 较 高 的 排名 表示 一 个 网 页 更 为 重要 ， 用 来 确保 重要 的 网 页 比 排 
名 较 低 的 网 页 在 返回 时 更 靠近 结果 列表 的 顶部 。 如 上 所 述 ，Google 的 成 功 很 大 程度 上 可 以 追溯 到 其 排 
名 算法 ， 即 PageRank 算法 [ Langville and Meyer 2006] 的 有 效 性 。 

PageRank 算法 受到 了 基于 引用 分 析 的 学 术 论文 排序 系统 的 启发 。 在 学 术 界 ， 如 果 一 篇 论文 被 该 领 
域 的 其 他 很 多 学 者 引用 ， 那 么 这 篇 论文 就 被 认为 是 十 分 重要 的 。 类 似 的 ， 在 PageRank 算法 中 ， 如 果 一 
个 网 页 被 其 他 很 多 页 面 链接 (通过 使 用 上 面 提 到 的 链接 数据 ) ， 那 么 它 就 是 非常 重要 的 。 同 时 ，PageR- 
ank 算法 也 超越 了 简单 的 “引用 ”分 析 ， 它 还 考虑 了 链接 到 一 个 给 定 页 面 的 网 站 所 具有 的 重要 性 。 例 
BN, 来自 bbc. co. uk 的 链接 被 看 做 比 来 自 Gordon Blair 个 人 页 面 的 链接 更 为 重要 。 

Google 的 排名 算法 还 考虑 了 很 多 其 他 因素 ， 包 括 页 面 上 单词 的 同义词 ， 以 及 这 些 关键 字 字 体 大 小 、 
是 否 大 写 等 〈 基 于 存储 在 倒 排 索引 中 的 信息 ) 。 

回 到 我 们 的 例子 ， 在 对 查询 中 的 三 个 单词 分 别 查找 索引 后 ， 搜 索 功 能 根据 感知 到 的 网 页 重要 性 对 
结果 网 页 引用 进行 排名 。 例 如 ， 排 名 算法 将 挑选 出 amazon. com 和 www. cdk5. net 下 的 某 些 页 面 引 用 ， 
因为 其 他 “重要 ”网 站 有 大 量 的 指向 这 些 网 页 的 链接 。 排 名 算法 也 将 页 面 按照 “ distributed”、“ sys- 
tems” 和 “book” 出 现时 相距 远近 来 区 分 其 优先 次 序 。 相 似 的 ， 排 名 算法 挑选 出 那些 在 页 面 开始 的 位 
置 出 现 这 些 单词 或 者 这 些 单词 是 大 写 的 网 页 ， 这 些 表 明 这 可 能 是 分 布 式 系 统 教科 书 的 清单 。 最 终 的 结 
果 应 该 是 搜索 结果 的 一 个 排名 列表 ， 这 个 列表 的 顶部 是 最 重要 的 条 目 。 

剖析 搜索 引擎 Google 创始 人 ，Sergey Brin 和 Larry Page， 在 1998 年 写 了 一 篇 开创 性 的 论文 来 “前 
析 ” Google 搜索 引擎 [Brin and Page 1998] ， 对 他 们 的 搜索 引擎 是 如 何 实现 的 提供 了 有 趣 的 见解 。 论 文 
中 所 描述 的 总 体 体 系 结构 如 图 21-1 所 示 ， 该 图 是 在 原来 的 基础 上 进行 了 重新 绘制 。 在 图 中 ， 我 们 区 分 
了 直接 支持 Web 搜索 的 服务 和 底层 的 存储 基础 设施 组 件 ， 前 者 绘制 为 椭圆 形 ， 后 者 用 和 矩形 表示 。 


URL 服 务 器 一 一 > 抓 取 器 ”一 一 > ”存储 服务 器 





4 
锚 文 件 
Fá in 仓库 
URL 解 析 器 索引 器 ee 
链接 索引 ean : 字 
分 类 器 
PageRank > 搜索 器 


图 21-1 原始 的 Google 搜索 引 警 的 体系 结构 概要 [ Brin and Page 1998] 
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虽然 本 章 的 目的 并 不 是 详细 地 介绍 这 个 体系 结构 ， 但 一 个 简短 的 概述 将 有 助 于 和 现在 更 复杂 的 
Google 基础 设施 进行 比较 。 抓 取 的 核心 功能 如 上 文 所 述 。 它 将 URL RAB (URL server) 提供 的 URL 
列表 作为 输入 ， 将 由 北 抓 取 到 的 结果 页 面 存储 到 存储 服务 器 (store server)。 这 些 数 据 被 压缩 、 存 储 在 
仓库 (repository) 中 留待 进一步 分 析 ， 特 别 是 为 搜索 创建 索引 。 索 引 功能 分 两 个 阶段 进行 。 第 一 阶段 ， 
索引 器 (indexer) 解压 仓库 中 的 数据 ， 并 产生 一 个 命中 集 。 命 中 集 用 文档 耳 、 单 词 、 单 词 在 文档 中 的 919 
位 置 和 其 他 信息 (如 单词 的 大 小 及 其 大 小 写 等 ) 表示 。 然 后 ， 这 些 数据 存储 在 一 个 “ 桶 ” (bared) 的 |! 
集合 中 ， 在 最 初 的 体系 结构 中 ， 桶 是 一 个 关键 的 存储 元 素 。 所 有 数据 根据 文档 ID 进行 排序 。 分 类 器 
(sorter) 从 “ 桶 ”中 取出 这 些 数据 ， 并 根据 单词 ID 进行 排序 以 产生 必要 的 (如 上 所 讨论 的 ) AHR 
引 。 在 分 析 数 据 时 ， 索 引 器 还 有 另外 两 个 重要 的 功能 ,提取 文档 中 有 关 链 接 的 信息 并 将 这 些 信息 存储 
在 一 个 锚 文件 (anchor) P; 为 分 析 过 的 数据 生成 一 个 字典 (lexicon) (在 使 用 初始 体系 结构 时 ， 该 字 
典 包含 1400 万 个 单词 ) URL 解析 器 (URL resolver) 读 取 锚 文件 内 容 并 对 数据 进行 一 系列 处 理 ， 包 括 
把 相对 URL 转 成 绝对 URL， 然 后 生成 链接 数据 库 ， 它 是 PageRank 算法 的 重要 输入 。URL 解析 器 还 会 
产生 一 个 文档 索引 〈doc index) ， 它 给 URL 服务 器 提供 输入 ， 即 下 一 步 要 抓 取 的 页 面 。 最 终 ， 搜 索 器 
(searcher) 通过 使 用 从 文档 索引 中 取出 的 数据 、 排 名 算法 〈PageRank) 、 桶 中 存储 的 倒 排 索引 和 字典 等 
输入 一 起 实现 了 Google 核心 的 搜索 功能 。 

这 种 体系 结构 引入 注目 的 一 点 是 ， 当 体系 结构 的 某 些 具体 细节 改变 时 ， 支 持 网 络 搜 索 的 关键 服务 ， 
即 抓 取 、 索 引 〈 包 括 分 类 ) 和 排序 (通过 PageRank) 仍旧 保持 不 变 。 

URES ARERR, ASU SEITE) Web 搜索 体系 结构 到 现在 对 复杂 分 布 式 系统 的 支持 ， 不 论 是 
在 识别 通信 、 存 储 、 处 理 的 可 重用 构件 方面 ， 还 是 在 超越 搜索 将 体系 结构 一 般 化 方面 ，Google 基础 设 
施 已 经 发 生 了 极 大 的 变化 ， 这 些 特 点 将 在 下 文 变 得 更 加 明显 。 

Google (FA RERE Googe 已 经 超越 搜索 逐渐 多 元 化 ， 现 在 提供 范围 很 广 的 基于 Web 的 应 用 ， 
包括 一 些 Google Apps 的 应 用 [www. google. com I] 。 更 一 般 地 说 ，Google 现在 是 云 计 算 领域 的 主要 参与 
者 。 回 想 一 下 第 1 章 引 人 的 云 计算 ， 它 被 定义 为 “一 个 基于 互联 网 的 应 用 、 足 以 支持 大 多 数 用 户 需 求 
的 存储 和 计算 服务 的 集合 ， 这 使 得 用 户 能 大 部 分 或 全 部 免除 本 地 数据 存储 和 应 用 软件 ”。 这 正 是 Google 
现在 致力 于 提供 的 ， 特 别 是 提供 软件 即 服务 和 平台 即 服务 领域 (正如 在 7.7.1 节 中 介绍 的 ) 的 重要 产 
品 。 接 下 来 我 们 依次 看 一 下 各 个 领域 

软件 即 服务 : 这 个 领域 关注 的 是 在 互联 网 上 作为 Web 应 用 提供 应 用 层 软 件 。 一 个 典型 的 例子 是 
Google Apps， 它 是 一 系列 基于 Web 的 应 用 的 集合 ， 包 括 Gmail、Google Docs、Google Sites、Google Talk 
和 Google Calendar, Google 的 目标 是 用 支持 共享 文档 编写 的 应 用 、 在 线 日 历 和 一 系列 支持 电子 邮件 、 
wiki、 基 于 IP 的 语音 工具 和 即时 通信 等 的 协作 工具 取代 传统 的 办 公 套 件 。 

最 近 Google 开发 了 几 个 新 型 的 基于 Web 的 应 用 ， 在 图 21-2 中 总 结 了 这 些 应 用 和 最 初 的 Google 
Apps。 为 编写 本 章 而 观察 到 的 一 个 关键 点 是 Googe 鼓励 组 织 内 的 开放 式 创新 ， 因 此 每 时 每 刻 都 会 有 新 
的 应 用 出 现 。 这 对 底层 分 布 式 系统 基础 设施 提出 了 特殊 的 要 求 ， 这 点 会 在 21. 3.2 节 重 新 讨论 。 








Gmail 邮件 系统 ， 消 息 由 Google 托管 ， 采 用 桌面 吧 格 的 消息 管理 

Google Docs 基于 Web 的 办 公 套 件 ， 支 持 对 存储 在 Google 服务 器 上 的 文件 的 共同 编辑 

Google Sites wiki 风格 的 网 站 ， 具 有 共享 编辑 设施 

Google Talk 支持 基于 P 的 即时 文本 消息 和 语音 

Coogle Calendar 基于 Web 的 日 历 ， 所 有 的 数据 都 由 Google 服务 器 托管 

Google Wave 整合 了 邮件 、 即 时 消息 、wiki 和 社交 网 络 的 协作 工具 

Google News 全 自动 的 新 闻 育 合 器 网 站 

Google Maps 基于 Web 的 可 缩放 的 世界 地 图 ， 包 括 高 分 辨 率 的 图 像 和 不 受 限制 的 由 用 户 生 成 的 覆盖 网 
Google Earth 可 缩放 的 接近 3D 效果 的 地 球 仪 ， 包 括 不 受 限 制 的 由 用 户 生成 的 覆盖 层 


Google App Engine Google 分 布 式 基础 设施 ， 它 作为 一 项 服务 提供 给 外 部 机 构 〈 平 台 即 服务 ) 





图 21-2 Google 应 用 举例 
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平台 即 服务 : 该 领域 关注 的 是 作为 互联 网 上 的 服务 提供 分 布 式 系统 API， 这 些 API 用 于 支持 Web 
应 用 程序 的 开发 和 托管 〈 请 注意 ， 在 此 上 下 文中 的 术语 “平台 ”的 使 用 和 本 书 其 他 地 方 该 术语 的 使 用 
在 含义 上 有 所 不 同 ， 在 本 书 其 他 地 方 ， 它 指 的 是 硬件 和 操作 系统 级 别 的 ) 。 随 着 Google App Engine 的 推 
iH, Googe 已 经 超越 了 “软件 即 服务 ”， 可 将 其 分 布 式 系 统 的 基础 设施 作为 一 项 云 服 务 来 提供 ， 本 章 将 
贯穿 这 个 主题 。 更 具体 来 说 ，Google 的 业务 已 经 是 基于 云 基础 设施 的 了 ， 在 Google 内 部 这 些 基础 设施 
支持 着 所 有 的 应 用 程序 和 服务 ， 包 括 Web 搜索 引擎 。 现 在 的 Google App Engine 允许 外 部 访问 这 一 基础 
设施 的 一 部 分 ， 允 许 其 他 组 织 在 Google 平台 上 运行 自己 的 Web 应 用 程序 。 

随 着 本 章 内 容 的 展开 ， 我 们 将 进一步 展现 Google 基础 设施 的 细节 ， 关 于 Google App Engine 的 更 多 
细节 可 参见 Google 网 站 [ code. google. com IV ] 。 


21.3 总 体 结构 和 设计 理念 


本 节 关 注 Google 系统 的 总 体 结 构 ， 需 要 了 解 : 
© Google 采取 的 物理 体系 结构 ; 
© 相关 的 系统 体系 结构 ， 它 为 Google 提供 的 互联 网 搜索 引擎 和 众多 Web 应 用 提供 公共 服务 。 


21. 3.1 物理 模型 


Google 在 物理 基础 设施 方面 的 关键 理念 是 通过 使 用 大 量 的 商用 PC 为 分 布 式 存储 和 计算 提供 经 济 合 
算 的 环境 。 购买 决策 是 基于 每 一 美元 可 以 获得 的 最 佳 性 能 ， 而 不 是 花费 1000 美元 购买 一 个 典型 的 PC 时 
获得 的 绝对 性 能 。 通 常 ， 一 个 给 定 的 PC 大 约 有 2TB 的 磁盘 存储 和 16GB 的 DRAM (动态 随机 存 取 存 储 
器 ) ， 运 行 一 个 精简 版 的 Linux 内 核 。( 利 用 商用 PC 构建 系统 的 想法 反映 了 该 研究 项 目 初期 的 情况 ， 那 时 
候 ，Sergey Brin Pi Larry Page 用 斯 坦 福 大 学 实验 室 清理 出 的 多 余 的 硬件 搭建 了 第 一 个 Google 搜索 引擎 。) 

在 决定 遵循 商用 PC 的 思路 之 后 ，Google 意识 到 其 基础 设施 中 有 一 部 分 会 出 现 故障 ， 因 此 下 面 我 们 将 看 
到 ，Google 设计 了 一 系列 策略 来 容忍 这 些 故 障 。Hennessy 和 Patterson [2006] 描述 了 Google 的 故障 特点 : 

© 迄今 为 止 最 常见 的 故障 来 源 是 软件 ， 每 天 因 软 件 故 障 而 需要 重新 启动 的 机 器 大 约 有 20 台 左 右 。 

(有 趣 的 是 ， 所 有 的 重启 过 程 都 是 手动 的 。) 

。 硬件 故障 显示 大 约 有 1/10 的 硬件 故障 是 由 于 软件 引起 的 ， 每 年 大 约 有 2% ~3% 的 机 器 会 出 现 

硬件 故障 。 其 中 ，95% 的 硬件 故障 是 磁盘 或 者 DRAM 故障 。 

这 证 明了 采购 商用 电脑 的 决定 是 正确 的 。 考 虑 到 绝 大 多 数 的 故障 是 由 于 软件 引起 的 ， 因 此 不 值得 
投资 更 昂贵 、 更 可 靠 的 硬件 。Pinheiro 等 [2007] 的 论文 进一步 描述 了 在 Google 物理 基础 设施 中 使 用 
的 商用 磁盘 的 故障 特点 ， 提 供 了 在 大 规模 部 署 的 情况 下 观察 到 的 磁盘 存储 的 故 放 模式 。 

Google 按 下 面 的 方式 构造 物理 体系 结构 [ Hennessy and Patterson, 2006 ] ; 

。 在 每 个 机 架 上 组 织 安放 40 ~ 80 台 商 用 PC。 机 哥 是 双 面 的 ， 每 面 放置 一 半数 量 的 PC。 每 个 机 架 

有 一 台 以 太 网 交换 机 ， 提 供 机 架 之 间 和 到 机 房 之 外 的 连接 (参见 图 21-3)。 交 换 机 是 模块 化 
的 ， 组织 为 一 些 刀 片 集合 ， 每 个 刀片 支持 8 个 100Mbps 的 网 络 接口 或 者 一 个 1Gbps 的 网 络 接 
口 。 对 于 40 人 台电 脑 的 机 架 ， 需 要 5 个 刀片 ， 每 个 包含 8 个 网 络 接口 ， 足 以 确保 机 架 内 的 连接 。 
还 有 另外 两 个 刀片 ， 都 支持 1Gbps 的 网 络 接口 ， 用 以 与 外 部 世界 相连 。 

。 机 架 被 组 织 成 集群 (相关 讨论 见 1. 3.4 节 ) ， 这 是 一 个 关键 的 管理 单位 ， 例 如 决定 了 服务 的 安 
置 和 复制 。 一 个 集群 通常 由 30 个 或 更 多 的 机 架 和 两 个 高 带宽 交换 机 组 成 ， 提 供与 外 面世 界 
(互联 网 和 其 他 Google 中 心 ) 的 连接 。 通 常 每 个 机 架 连 接 到 两 个 交换 机 以 备 不 时 之 需 。 此 外 ， 
为 进一步 元 余 ， 每 台 交 换 机 对 外 界 有 宛 余 的 连接 。. 
集群 被 安置 在 Google 遍布 全 世界 的 数据 中 心中 。2000 年 ，Google 依靠 位 于 硅谷 (两 个 中 心 ) 
和 弗吉尼亚 州 的 关键 的 数据 中 心 。 在 编写 本 书 时 ,数据 中 心 的 数量 显著 增长 。 目 前 有 很 多 数据 
中 心 跨越 不 同 的 地 理 位 置 ， 分 别 分 布 在 美国 各 地 、 都 柏林 (爱尔兰 ) Saint-Ghislain (HEA 
it). Shaikh Gat), AE CAA) 和 北京 (中 国 )。( 截 至 2008 年 ， 已 知 的 数据 中 心 的 地 图 
可 以 在 网 站 找到 [royal. pingdom. com] a) 
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整个 组 织 的 简化 版 本 如 图 21-3 所 示 。 这 些 物理 基础 设施 为 Google 提供 了 巨大 的 存储 和 计算 能 力 ， 
同时 通过 必要 的 宛 余 来 构建 大 型 的 、 容 错 的 系统 〈 注 意 ， 为 避免 混乱 ， 该 图 只 显示 从 一 个 集群 到 外 部 
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数据 中 心 体 系 结构 


到 其 他 数据 中 心 和 互联 网 
(为 了 避免 杂乱 ， 以 太 网 连接 仅 给 出 了 从 集群 中 的 一 个 到 外 部 的 连接 ) 


图 21-3 ”Google 物理 基础 设施 的 组 织 


存储 能 力 : 我 们 来 看 看 Google 提供 的 存储 容量 。 如 果 每 台 PC 提供 2TB 的 存储 空间 ， 那 么 一 个 
80 台 PC 的 机 架 提供 160TB 的 存储 空间 ， 因 而 一 个 拥有 30 个 机 架 的 集群 可 提供 4. 8PB 的 存储 能 力 。 
我 们 并 不 能 准确 地 知道 Google 总 共 拥 有 的 机 器 数量 ， 这 是 涉及 Google 公司 业务 的 重要 秘密 ,但 是 我 
们 可 以 假设 Google 有 200 个 数量 级 的 集群 ， 总 共 提供 960PB 或 者 1EB (10°45) 的 存储 空间 。 这 
很 可 能 是 一 个 保守 的 数字 ，Google 副 总 裁 Marissa Mayer 已 经 说 过 数据 爆炸 正在 把 我 们 带 到 EB 级 的 数 
据 量 范围 [ www. parc. com] 。 

在 本 章 的 剩余 篇 幅 中 ， 我 们 将 看 到 Google 是 如 何 使 用 这 种 广泛 的 存储 和 计算 能 力 以 及 相关 的 宛 余 
来 提供 核心 服务 的 。 


21. 3.2 总 的 系统 体系 结构 


在 了 解 总 的 系统 体系 结构 之 前 ， 详 细 考 察 关 键 的 需求 是 非常 重要 的 。 

可 伸缩 性 : 对 Google 底层 基础 设施 的 首要 的 也 是 最 明显 的 需求 就 是 掌控 可 伸缩 性 ， 特 别 是 ， 可 以 
支持 第 2 章 中 描述 的 超大 规模 的 分 布 式 系统 的 方法 。 对 于 搜 “更 多 查询 
索引 擎 ，Coogle 在 三 个 维度 考虑 可 伸缩 性 的 问题 : 1) 能 够 人 
处 理 更 多 的 数据 (例如 ， 随 着 倡导 使 用 数字 化 图 书馆 ，Web 
上 的 信息 量 不 断 增 加 ) ; 2) 能 够 处 理 更 多 的 查询 〈 因 为 在 家 
里 和 工作 场所 使 用 Google 的 人 数 不 断 增长 ) ; 3) 寻求 更 好 的 更 好 的 结果 
结果 (这 是 尤为 重要 的 ， 因 为 这 是 用 户 决 定 使 用 一 个 搜索 引 
擎 的 关键 因素 ) 。 图 21-4 说 明了 对 可 伸缩 性 问题 的 看 法 。 

可 伸缩 性 要 求 使 用 (复杂 的 ) 分 布 式 系统 策略 。 我 们 
通过 对 Jeff Dean 在 PACT’ 06[ Dean 2006] 上 的 发 言 进行 简 nae 
要 的 分 析 来 说 明 这 一 点 。 他 假设 Web 一 共 包 括 约 200 亿 个 
网 页 ， 每 个 网 页 大 小 为 20KB。 这 意味 着 数据 总 规模 约 为 。 图 21-4 Google 中 的 可 伸缩 性 问题 
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400TB。 假 设计 算 机 每 秒 可 以 读 取 30MB ， 使 用 一 台 计 算 机 抓 取 这 人 么 大 量 的 数据 需要 4 个 月 以 上 的 时 
间 。 相 对 地 ， 使 用 1000 台 机 器 读 这 些 数据 所 需 时 间 不 超过 3 个 小 时 。 此 外 ,由 21.2 节 介 绍 可 知 ， 
搜索 并 不 仅仅 是 抓 取 。 为 了 有 具有 可 伸缩 性 ， 其 他 的 功能 (包括 索引 、 排 名 和 搜索 ) 都 需要 高 度 分 布 
式 的 解决 方案 。 

TEH: Googe 有 严格 的 可 靠 性 要 求 ， 特 别 是 关于 服务 的 可 用 性 。 这 一 点 对 于 搜索 功能 尤其 重要 ， 
搜索 功能 需要 提供 每 周 7 R, ER 24 小 时 的 可 用 性 。( 不 过 ， 从 本 质 上 讲 ， 掩 饰 搜索 故障 是 很 容易 的 ， 
因为 用 户 无 法 了 解 是 否 返 回 了 所 有 的 搜索 结果 。) 这 些 和 需求 也 适用 于 其 他 的 Web 应 用 程序 ， 值 得 注意 
的 是 ，Google 为 Google Apps 的 付费 用 户 提 供 99.9% 的 服务 等 级 协定 (实际 上 是 一 个 系统 保证 ) ， 这 里 
所 指 的 Google Apps 覆盖 了 Gmail, Google Calendar, Google Docs, Google Sites 和 Google Talk 等 。 公 司 在 
服务 可 用 性 方面 拥有 出 色 的 整体 记录 , 但 2009 年 9 月 1 日 Gmail 曾 中 断 服务 ， 这 件 事 被 广泛 报道 并 提 
醒 大 家 这 个 领域 仍 有 持续 的 挑战 。( 这 次 中 断 服务 持续 了 100 分 钟 ， 是 在 日 常 维护 期 间 出 现 了 超载 服务 
器 的 级 联 问题 引起 的 。) 注意 ,在 设计 物理 体系 结构 时 就 必须 满足 可 靠 性 的 需求 ， 这 意味 着 期 望 ( 软 
件 和 硬件 ) 故障 在 合理 的 频率 范围 内 发 生 。 这 既 要 进行 故障 检测 ， 又 要 采取 策略 来 掩饰 或 容忍 出 现 此 
类 故障 。 这 些 策略 严重 依赖 于 底层 物理 体系 结构 的 元 余 。 在 介绍 系统 体系 结构 的 细节 时 ， 我 们 会 看 到 
这 些 策略 的 例子 。 

MRE: 系统 的 总 体 性 能 对 Google 非常 重要 ， 特 别 是 在 实现 与 用 户 交互 的 低 延 迟 方面 。 性 能 越 好 
用 户 就 越 有 可 能 返回 来 执行 更 多 的 查询 ， 进 而 又 增加 了 广告 的 曝光 ， 因 此 有 可 能 增加 收入 。 在 0.2 秒 
内 完成 网 络 搜索 操作 〈 如 上 所 述 ) ， 并 且 要 达到 在 处 理 非常 大 的 数据 集 时 响应 所 有 的 输入 请 求 所 需 的 
吞吐 量 ， 这 个 目标 可 以 作为 一 个 例子 来 说 明 性 能 的 重要 性 。 这 适用 于 与 Google 搜索 操作 相关 的 一 系列 
功能 ， 包 括 Web 抓 取 、 索 引 和 排序 。 注 意 ， 性 能 是 一 个 端 到 端的 特性 ， 它 要 求 所 有 相关 的 底层 资源 协 
同 工 作 ， 包 括 网 络 、 存 储 和 计算 资源 。 

开放 性 : 上 述 需 求 在 很 多 方面 从 Google 支持 其 核心 服务 和 应 用 程序 的 角度 是 显而易见 的 。 开 放 性 
也 是 一 个 强烈 的 需求 ， 特 别 是 为 了 进一步 开发 供出 售 的 Web 应 用 程序 。 众 所 周知 ， 作 为 一 个 组 织 ， 
Google 鼓励 和 培育 创新 ， 这 在 开发 新 的 Web 应 用 程序 中 尤其 明显 。 这 只 有 在 基础 设施 是 可 扩展 的 ， 并 
且 能 为 新 的 应 用 开发 提供 支持 的 情况 下 才 有 可 能 实现 。 

为 了 满足 这 些 需求 ，Google 开发 了 总 的 系统 体系 结构 ， 如 图 21-5 所 示 。 此 图 底部 显示 了 底层 的 计 
算 平台 (也 就 是 上 面 描 述 的 物理 体系 结构 )， 顶 部 显示 了 众 所 周 
知 的 Google 服务 和 应 用 程序 ， 中 间 层 定义 了 一 个 通用 的 分 布 式 基 kana 
础 设施 ， 为 搜索 和 云 计算 提供 中 间 件 支持 ， 这 是 Google 成 功 的 关 
键 。 基 础 设施 为 Google 服务 和 应 用 程序 的 开发 者 提供 了 通用 的 分 
布 式 系统 服务 ， 并 封装 了 处 理 可 伸缩 性 、 可 靠 性 和 性 能 等 的 关键 
策略 。 提 供 这 样 一 个 精心 设计 的 通用 的 基础 设施 ， 使 得 新 的 应 用 
和 服务 的 开发 可 以 通过 重用 底层 系统 服务 来 完成 ， 更 巧妙 的 是 ， 
通过 实施 通用 策略 和 设计 原则 ， 为 日 益 扩 大 的 Google 代码 库 提供 
了 整体 的 一 致 性 。 图 21-5 Google 总 的 系统 体系 结构 

Google 基础 设施 ”系统 由 一 个 分 布 式 服务 集合 构建 而 成 ， 向 开发 者 提供 了 核心 的 功能 〈 参 见 
图 21-6) 。 这 个 服务 集合 被 自然 地 分 为 以 下 几 个 子 集 : 

。 底层 通信 范 型 ， 包 括 为 远程 调用 和 间接 通信 提供 的 服务 : 

一 协议 缓冲 区 组 件 为 Google 提供 了 公共 的 序列 化 格式 ， 包 括 远程 调用 中 的 请 求 和 应 答 的 序列 
化 格式 。 
一 Google 的 发 布 -订阅 服务 为 潜在 的 大 量 的 订阅 者 提供 有 效 的 事件 分 发 。 
© 数据 和 协调 服务 为 数据 的 存储 提供 了 非 结构 化 或 者 半 结 构 化 的 抽象 ， 并 提供 服务 以 支持 对 数据 
的 协调 访问 : 
一 GFS 提供 了 一 个 分 布 式 文件 系统 ， 并 针对 Google 的 应 用 程序 和 服务 (包括 超大 文件 的 存储 ) 
的 特殊 要 求 进行 了 优化 。 


Google 基 础 设施 《中 间 件 ) 


Google 平 台 
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一 Chubby 支持 协调 服务 ， 并 能 够 存储 少量 的 数据 。 


一 Bigtable 提供 一 个 分 布 式 数据 库 ， 提 供 对 半 结 构 化 数据 的 访问 。 

分 布 式 计算 服务 为 运行 在 物理 基础 设施 之 上 的 并 行 和 分 布 式 计算 提供 支持 : 

一 MapReduce 支持 可 能 非常 大 的 数据 集 〈 例 如 存储 在 BigTable 里 ) 的 分 布 式 计算 。 
一 Sawzall 为 这 些 分 布 式 计算 的 执行 提供 一 个 更 高 层次 的 语言 。 


分 布 式 计算 = MapReduce Sowell 
数据 和 协调 GE. 1 Chubby - Bigtable 
通信 范 型 协议 缓冲 区 发 布 -订阅 


图 21-6 Google 基础 设施 


从 21. 4 节 到 21. 6 节 我 们 将 依次 了 解 这 些 组 件 。 然 而 ， 首 先 了 解 与 体系 结构 相关 的 关键 设计 原则 
是 非常 有 益 的 。 

相关 的 设计 原则 为 了 充分 理解 Google 基础 设施 的 设计 ， 了 解 渗透 于 该 组 织 中 的 关键 设计 理念 是 
非常 重要 的 : 

。 Google 软件 背后 的 最 重要 的 设计 原则 是 简单 性 : 软件 应 该 做 一 件 事 ， 并 把 它 做 好 ， 尽 可 能 避免 


功能 丰富 的 设计 。 例 如 ，Bloch[2006] 讨论 了 这 一 原则 如 何 适 用 于 API 的 设计 ， 这 意味 着 API 
的 设计 应 尽 可 能 小 ， 并 且 没 有 比 这 个 设计 更 小 的 。 这 是 一 个 应 用 Occam 剃刀 的 例子 。 

另 一 个 关键 的 设计 原则 是 在 系统 软件 开发 时 对 性 能 的 重视 , 词组 “以 每 一 毫秒 计 ” 
[www. google. com V] 体现 了 这 一 设计 原则 。 在 LADIS' 09 会 议 的 特 邀 报告 上 ，Jeg Dean 
( Google 系统 基础 设施 团队 的 成 员 ) 强调 了 能 够 通过 基本 操作 的 性 能 来 估计 系统 设计 性 能 的 重 
要 性 ， 其 中 ， 基 本 操作 包括 访问 内 存 和 磁盘 、 通 过 网 络 发 送 数 据 包 、 加 一 个 互 斥 锁 和 解 一 个 互 
斥 锁 等 ， 此 外 ， 他 还 提 到 了 称 为 “信封 背面 ”的 计算 [www. cs. comell. edu], 

最 后 一 个 原则 是 ， 提 倡 严格 的 软件 测试 制度 ，“ 如 果 程 序 未 被 攻破 ， 那么 是 你 努力 不 够 ” 
[ googletesting. blogspot. com] 这 句 话 体现 了 这 一 原则 。 强 调 通 过 日 志和 追踪 来 检测 和 解决 系统 
故障 是 这 一 原则 的 补充 。 


在 这 些 背 景 下 ,我 们 现在 已 经 准备 好 研究 Google 基础 设施 的 各 个 组 成 部 分 我们 将 从 底层 的 通信 
范 型 开始 。 对 于 每 一 个 领域 ,我 们 展现 其 整体 设计 ， 并 突出 关键 的 设计 决策 和 相关 权衡 。 


21.4 底层 通信 范 型 

回顾 第 3 章 至 第 6 章 ， 很 明显 底层 通信 范 型 的 选择 对 于 一 个 系统 整体 设计 的 成 功 非常 重要 。 可 选 
择 的 通信 范 型 包括 : 

。 直接 使 用 一 个 基本 的 进程 间 通信 服务 ， 如 套 接 字 抽 象 所 提供 的 〔 在 第 4 章 中 已 有 描述 ， 所 有 现 


代 操 作 系 统 都 支持 ) ; 


。 使 用 支持 客户 -服务 器 交互 的 远程 调用 服务 〈 如 请 求 - 应 答 协议 ， 远 程 过 程 调用 或 远程 方法 调 


用 ， 相 关 讨 论 参 见 第 5 章 ) ; 
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。 采用 间接 通信 范 型 (如 组 通信 ， 分 布 式 基于 事件 的 方法 ， 元 组 空间 或 者 分 布 式 共享 内 存 方法 等 
等 ， 相 关 讨 论 参见 第 6 章 ) 。 

为 了 遵循 在 21. 3 节 确 定 的 设计 原则 ，Google 采用 了 一 个 简单 的 、 最 小 的 且 高 效 的 远程 调用 服务 ， 
该 服务 是 远程 过 程 调用 方法 的 一 个 变种 。 

回顾 一 下 ， 远 程 过 程 调用 的 通信 需要 一 个 序列 化 组 件 来 转换 过 程 调用 数据 〈 程 序 的 名 称 和 参数 ， 
可 能 是 结构 化 的 ) ， 即 从 内 部 二 进 制 表示 转换 为 打 平 的 或 序列 化 的 与 处 理 器 无 关 的 格式 ， 为 传输 到 远程 
目的 地 做 好 准备 。Java RPC 的 序列 化 在 4. 3. 2 节 中 已 有 描述 。XML 最 近 已 经 成 为 一 个 “通用 ”的 序列 
化 数据 的 格式 ， 但 其 通用 性 带 来 了 可 观 的 开销 。 因 此 Google 开发 了 一 个 简化 的 、 高 性 能 的 序列 化 组 
件 一 一 协议 缓冲 区 ， 它 可 以 被 基础 设施 内 绝 大 部 分 的 交互 使 用 。 它 可 以 在 任意 底层 的 通信 机 制 上 使 用 
以 提供 RPC 功能 。 协 议 缓冲 区 的 开源 版 本 是 可 获得 的 [ code. google. com I]。 

同时 Google 也 使 用 了 一 个 单独 的 发 布 -订阅 服务 ， 这 一 通信 范 型 在 分 布 式 设计 的 很 多 领域 有 关键 
作用 ， 包 括 向 多 个 参与 者 实时 高 效 地 分 发 事件 。 和 许多 其 他 的 分 布 式 系统 平台 类 似 ，Coogle 基础 设施 
提供 了 一 种 混合 的 解决 方案 ， 人 允许 开发 人 员 为 他 们 的 需求 选择 最 好 的 通信 范 型 。 在 Google 的 基础 设施 
E, 发布- 订阅 并 不 是 协议 缓冲 区 的 替代 者 ， 而 是 一 种 增强 ， 从 而 在 最 合适 的 领域 提供 增值 服务 。 

接 下 来 我 们 将 查看 这 两 种 方法 的 设计 ， 并 重点 强调 协议 缓冲 区 (发布 -订阅 协议 的 全 部 细节 尚 
未 公开 )。 


21.4.1 远程 调用 

协议 缓冲 区 重点 关注 对 数据 的 描述 和 随后 的 数据 序列 化 ， 因 此 这 个 概念 可 以 和 一 些 直 接 的 替代 方 
法 (如 XML) 相 类 比 。 协 议 缓冲 区 的 目标 是 提供 一 种 与 语言 、 平 台 无 关 的 方式 来 简单 、 高 效 、 可 扩展 
地 指定 和 序列 化 数据 ; 序列 化 后 的 数据 随后 可 以 用 于 数据 存储 或 者 使 用 底层 通信 协议 进行 数据 传输 ， 
或 者 用 于 任何 需要 序列 化 格式 以 获得 结构 数据 的 场景 。 我 们 稍 后 就 会 看 到 如 何 把 协议 缓冲 区 用 作 RPC 
方式 交互 的 基础 。 

在 协议 缓冲 区 中 ， 消 息 规约 需要 用 一 个 语言 指定 。 我 们 将 举例 介绍 这 种 简单 的 ) 语言 的 主要 特 
点 ， 图 21-7 显示 如 何 指定 Book 消息 。 


message Book { 
required string title = 1; 
repeated string author = 2; 
enum Status { 
IN_PRESS = 0; 
PUBLISHED = I; 
OUT_OF_PRINT = 2; 





message BookStats { 
required int32 sales = 1; 
optional int32 citations = 2; 
optional Status bookstatus = 3 [default = PUBLISHED]; 


optional BookStats statistics = 3; 
repeated string keyword = 4; 








图 21-7 协议 缓冲 区 举例 


可 以 看 出 ，Book 消息 由 一 系列 唯一 编号 的 字段 组 成 ， 每 个 字段 用 字段 名 称 和 相关 的 值 的 类 型 表 
示 。 值 的 类 型 可 以 是 以 下 类 型 之 一 : 
929 © 一 个 基本 数据 类 型 (包括 整 型 、 浮 点 型 、 布 尔 型 、 字 符 串 或 原始 字 节 ) ; 
© 一 个 枚 举 类 型 ; 
。 一 个 嵌 套 的 消息 ， 意 味 着 允许 分 层 结构 的 数据 。 
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图 21-7 中 有 每 一 个 类 型 的 例子 。 

字段 用 下 列 三 个 标签 之 一 进行 注解 : 

e required 字段 必须 出 现在 消息 中 ; 

e optional 字段 可 能 出 现在 消息 中 ; 

e repeated 字段 可 以 在 消息 中 出 现 零 次 或 者 多 次 。 (协议 缓冲 区 的 开发 者 们 将 其 视 为 一 个 动态 大 

小 的 数组 类 型 。) 

如 图 21-7 所 示 ， 我 们 可 以 在 Book 消息 格式 中 看 到 每 种 注解 的 使 用 。 

唯一 的 编号 ( =1，=2 等 ) 表示 二 进 制 编码 的 消息 中 某 一 特定 的 字段 。 

这 个 规约 包含 在 一 个 . proto 文件 中 ， 由 一 个 名 为 protoc 的 工具 编译 。 该 工具 的 输出 是 生成 码 ， 程 
序 员 可 以 操作 生成 码 中 的 特定 的 消息 类 型 ， 特 别 是 向 /从 消息 中 赋值 /取信 。 更 确切 来 讲 ，protoc 工具 
生成 一 个 builder 类 ， 该 类 为 每 个 字段 提供 getter 和 setter 方法 ， 还 有 一 些 其 他 额外 的 方法 来 测试 是 否 已 


设置 某 些 方法 ， 以 及 将 一 个 字段 的 值 清除 为 空 。 例 如 ， 为 title 字段 生成 如 下 的 方法 : 
public boolean hasTitle(); 
public java.lang.String getTitle(); 
public Builder setTitle(String value); 
public Builder clearTitle(); 930 


builder 类 的 重要 性 在 于 虽然 在 协议 缓冲 区 中 消息 是 不 可 改变 的 ,但 是 builder 类 是 可 变 的 ， 可 以 用 
于 构造 和 操作 新 的 消息 。 

可 重复 字段 的 生成 代码 稍微 复杂 -- 些 ， 提 供 count 方法 可 以 返回 一 个 相关 列表 中 的 元 素数 目的 计 
Hk, PE get 或 set 方法 获取 或 设置 在 列表 中 的 特定 字段 ， 提 供 append 方法 向 一 个 列表 中 追加 新 的 元 
RK, WHE addAl 方法 向 列表 中 添加 一 个 元 素 集合 。 我 们 将 以 keyword 字段 举例 说 明 ， 下 面 列 出 了 为 该 
字段 生成 的 方法 : 


public List<string> getKeywordList(); 

public int getKeywordCount(); 

public string getKeyword(int index); 

public Builder setKeyword(int index, string value); 
public Builder addKeyword(string value); 

public Builder addAllKeyword(Iterable<string> value); 
public Builder clearKeyword(); 


生成 的 代码 还 提供 一 系列 其 他 的 方法 来 操作 消息 ， 包 括 toString 方法 ， 它 将 消息 表示 为 可 读 的 形式 
(经 常 在 调试 时 使 用 ) ， 以 及 其 他 一 系列 解析 到 达 的 消息 的 方法 。 

可以 看 出 ， 和 XML 相 比 ， 这 是 一 个 非常 简单 的 格式 〈 例 如 ， 将 上 面 的 规约 和 在 4.3.3 节 介 绍 的 
XML 规约 做 对 比 ) ， 它 的 开发 者 声称 比 XML 小 3 ~ 10 倍 ， 而 操作 速度 要 快 10 ~ 100 倍 。 提 供 数据 访问 
的 相关 编程 接口 也 比 XML 的 核 口 简单 。 

注意 ， 这 是 一 个 多 少 有 些 不 公平 的 比较 ， 原 因 有 二 。 第 一 ，Google 基础 设施 是 一 个 相对 封闭 的 系 
统 ， 因 此 不 像 XML， 并 且 协 议 缓冲 区 没有 解决 跨 开 放 系统 的 互 操作 性 。 第 二 ，XML 更 为 丰富 ， 因 为 它 
生成 自 描述 的 消息 ， 这 些 消 息 包 含 数据 和 相关 的 描述 消息 结构 的 元 数据 (参见 4. 3.3 节 ) 。 协 议 缓冲 区 
不 直接 提供 这 种 功能 (虽然 它 可 以 实现 这 种 效果 ,在 相关 网 页 的 techniques 一 节 中 有 描述 
[ code. google. com I[] ) 。 总 的 来 说 ， 可 以 通过 要 求 protoc 编译 器 生成 一 个 FileDescriptorSet 来 包含 消息 的 
自我 描述 ， 然 后 在 消息 描述 中 显 式 地 包含 这 些 信 息 。 但 是 ， 协 议 缓冲 区 的 开发 者 强调 这 不 是 一 个 特别 
有 用 的 功能 ， 很 少 在 Google 基础 设施 的 代码 中 使 用 。 

支持 RPC ”如 上 所 述 ， 协 议 缓冲 区 是 一 种 可 用 于 存储 或 通信 的 通用 机 制 。 然 而 ， 协 议 缓冲 区 最 常 
见 的 使 用 场景 是 跨 网 指定 RPC 交换 ， 可 以 通过 在 语言 设计 中 包含 额外 的 语法 来 实现 。 同 样 ， 我 们 举例 
说 明 该 语法 : 

service SearchService { 

rpc Search (RequestType) returns (ResponseType) ; 

} 


该 代码 片段 描述 了 一 个 被 称 为 SearchService 的 服务 接口 ， 它 包含 一 个 远程 操作 Search， 该 操作 需 
要 一 个 RequestType 类 型 的 参数 ， 并 返回 一 个 ResponseType 类 型 的 参数 。 例 如 ， 对 应 的 类 型 可 能 分 别 是 
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关键 字 列 表 和 一 个 丐 配 该 关键 字 集 合 的 Book 列表 。protoc 编译 器 采用 这 种 规约 产生 一 个 抽象 的 接口 
SearchService 和 一 个 存根 ， 支 持 使 用 协议 缓冲 区 以 类 型 安全 的 RPC 方式 调用 远程 服务 。 

协议 缓冲 区 除了 与 语言 和 平台 无 关 之 外 ， 也 与 底层 RPC 协议 无 关 。 特 别 是， 存根 假定 存在 两 个 抽 
象 接口 RpeChannel 和 RpcController 的 实现 ， 前 者 为 底层 RPC 实现 提供 一 个 通用 的 接口 ， 后 者 提供 一 个 
通用 的 控制 接口 ， 例 如 进行 与 实现 相关 的 设置 。 程 序 员 必 须 提供 这 些 抽象 接口 的 实现 ， 从 而 有 效 地 选 
择 所 需 的 RPC 实 更。 例如， 可 以 通过 使 用 HTTP 或 TCP 传输 序列 化 的 消息 ， 或 者 映射 到 协议 缓冲 区 网 
站 上 的 、 可 用 的 任意 一 个 第 三 方 RPC 实现 [ code. google. com M], 

注意 ， 一 个 服务 接口 可 以 支持 多 个 远程 操作 ， 但 是 每 个 操作 必须 遵守 输入 一 个 单一 的 参数 ， 并 返 
回 一 个 单一 的 结果 〈 两 者 都 是 协议 缓冲 区 消息 ) 的 模式 。 与 RPC 和 RMI 系统 的 设计 相 比 ， 这 是 不 同 的 
(正如 我 们 在 第 5 章 已 看 到 的 ) ， 远 程 调 用 可 以 有 任意 数量 的 参数 ，RMI 的 参数 或 结果 可 以 是 对 象 或 者 
指向 对 象 的 引用 〈 虽 然 注意 到 5. 3. 3 节 中 描述 的 Sun RPC， 采 用 了 一 个 类 似 协 议 缓冲 区 的 方法 ) 。 将 操 
作 设 计 成 一 个 请 求 一 个 应 答 的 原因 是 为 了 支持 可 扩展 性 和 软件 演化 ; 接口 更 通用 的 风格 可 能 随时 间 推 
移 而 变化 显著 ， 而 这 种 更 多 约束 的 接口 可 能 保持 恒定 。 这 种 将 复杂 性 推 给 数据 的 方式 让 人 联想 到 REST 
的 理念 ， 后 者 支持 的 操作 集合 是 受 限 的 , 但 强调 对 资源 的 操作 (参见 9.2 节 )。 


21.4.2 发 布 -订阅 


协议 缓冲 区 虽然 被 广泛 使 用 ， 但 不 是 Google 基础 设施 唯一 的 通信 范 型 。 为 了 补充 协议 缓冲 区 ， 基 
础 设施 还 支持 发 布 - 订阅 系统 ， 目 的 是 保证 实时 、 可 靠 地 将 分 布 式 事件 发 送 给 潜在 的 大 量 的 用 户 。 如 
上 所 述 ， 发 布 - 订阅 服务 是 对 协议 缓冲 区 的 一 个 增强 ,实际 上 它 使 用 协议 缓冲 区 作为 其 底层 通信 。 

发 布 -订阅 系统 的 一 个 关键 应 用 ， 是 要 支持 Google 广告 系统 ， 我 们 必须 意识 到 Google 的 广告 遍布 
全 球 ， 网 络 中 任何 地 方 的 广告 服务 系统 必须 在 零点 几 秒 之 内 响应 一 个 查询 并 显示 符合 条 件 的 广告 。 

以 上 所 述 的 RPC 系统 对 于 这 种 形式 的 交互 显然 是 不 合适 的 ， 而 且 是 非常 低 效 的 ， 尤 其 是 考虑 到 潜 
在 的 大 量 订阅 者 和 相关 应 用 所 要 求 的 保障 。 特 别 地 ， 发 送 者 需要 知道 其 他 所 有 的 广告 服务 系统 ， 可 能 
有 非常 多 这 样 的 广告 服务 系统 。 需 要 发 送 RPC 到 每 一 个 服务 系统 ， 耗 费 了 发 送 方 的 很 多 连接 和 大 量 的 
缓冲 区 空间 ， 更 不 用 说 跨 广 域 网 链接 的 数据 发 送 的 带宽 要 求 。 相 反 ， 发 布 -订阅 解决 方案 具有 时 间 和 
空间 解 耦 的 内 在 特性 ， 克 服 了 这 些 难 题 ， 同 时 很 自然 地 支持 订阅 者 的 故障 恢复 〈 参 见 6. 1 节 ) 。 

Google 还 没有 公开 发 布 -订阅 系统 的 细节 。 因 此 ， 我 们 将 讨论 限制 在 一 些 高 层次 的 系统 特色 上 。 

Google 采用 了 一 种 基于 主题 的 发 布 ~ 订阅 系统 ， 为 事件 流 提供 了 一 系列 的 渠道 ， 其 中 每 个 渠道 对 
应 特定 的 主题 。 和 基于 内 容 的 系统 相 比 ， 基 于 主题 的 系统 更 易于 实现 ， 并 且 在 性 能 方面 更 其 有 可 预测 
性 一 一 也 就 是 说 ， 可 以 建立 专门 用 于 传递 与 给 定 主题 相关 的 事件 的 基础 设施 。 缺 点 是 在 指定 感 兴趣 的 事 
件 时 缺乏 表达 能 力 。 作 为 一 种 折 中 ，Google 的 发 布 -订阅 系统 增强 了 订阅 的 定义 ; 在 定义 订阅 时 不 仅 可 
以 选择 一 个 渠道 ， 还 可 以 选择 该 渠道 内 事件 的 子 集 。 尤 其 是 ， 一 个 给 定 的 事件 是 由 一 个 头 、 相 关 的 关键 
字 集 合 和 有 效 载 荷 组 成 的 ， 其 中 有 效 载荷 对 程序 员 是 不 透明 的 。 订 阅 请 求 在 指定 一 个 渠道 的 同时 ， 还 指 
定 了 一 个 定义 在 关键 字 集合 上 的 过 滤器 。 使 用 渠道 是 为 了 处 理 相对 静态 的 、 粗 粒度 的 并 且 要 求 高 事件 知 
HE (至 少 1Mbps) 的 数据 流 ， 所 以 ， 使 用 过 滤器 以 表述 精确 的 订阅 这 一 附加 功能 意义 重大 。 例 如 ， 如 
果 一 个 主题 产生 的 数据 小 于 这 个 数据 量 ， 它 会 被 纳入 到 另 一 个 主题 中 ,但 是 可 以 根据 关键 字 识 别 该 主题 。 

发 布 -订阅 系统 实现 为 以 树 的 集合 形式 表示 的 代理 履 盖 ,每 棵 树 代表 一 个 主题 。 树 的 根 是 事件 发 
布 者 ， 叶 子 结 点 代表 订阅 者 。 由 于 引 人 了 过 滤器 ， 所 以 ， 订 阅 者 在 树 中 被 尽 可 能 向 后 推送 以 将 不 必要 
的 流量 最 小 化 。 

与 第 6 章 讨论 的 发 布 - 订阅 系统 不 同 ，Google 的 发 布 -订阅 系统 强调 可 靠 和 及 时 的 传递 : 

。 在 可 靠 性 方面 ， 系 统 维护 了 宛 余 树 ， 尤 其 是 ， 为 每 个 逻辑 渠道 (主题 ) 维护 两 个 单独 的 树 

覆盖 。 

。 在 及 时 传递 方面 ， 该 系统 通过 服务 质量 管理 技术 的 实现 来 控制 消息 流 。 特 别 是 ，Google 引 人 了 

一 个 简单 的 速率 控制 机 制 ， 在 每 个 用 户 / 每 个 主题 的 基础 上 强制 增加 了 速率 限制 。 该 机 制 取代 
了 一 种 更 复杂 的 方法 ， 它 在 内 存 、CPU、 消 息 和 字 节 率 等 方面 来 管理 树 上 预期 的 资源 使 用 。 
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树 在 初始 化 时 构建 ， 并 根据 最 短路 径 算法 〈 参 见 第 3 章 ) 不 断 被 重新 评估 。 


21.4.3 通信 的 关键 设计 选择 总 结 


Google 基础 设施 中 与 通信 范 型 相关 的 整体 设计 选择 归纳 在 图 21-8 中 。 此 图 突出 了 与 总 体 设计 相关 
的 最 重要 的 决策 和 构成 成 分 〈 协 议 缓冲 区 和 发 布 - 订阅 系统 ) ， 并 总 结 了 与 每 个 选择 相关 的 合理 性 和 














特定 的 权衡 。 933 
设计 选择 理 由 权 & 
协议 缓冲 区 使 用 一 种 语言 来 确定 数 灵活 性 ， 源 于 可 以 用 同 
据 格 式 一 种 语言 对 数据 进行 序列 
化 (用 于 存储 或 通信 ) 
语言 的 简单 性 高 效 的 实现 .与 XML 相 比 ， 表 达能 力 不 足 
支持 RPC 风格 (用 一 个 ERA, TPE, Zi 。 ”和 其 他 RPC 或 RMI 包 相 比 ， 表 达能 
消息 作为 参数 ， 并 返回 一 ”服务 演化 力 不 足 
个 消息 作为 结果 ) 
协议 不 可 知 ( 即 不 依赖 ”可 以 使 用 不 同 的 RPC ”对 RPC 交换 而 言 没有 共同 的 语义 
于 某 个 协议 ) 的 设计 实现 
发 布 -订阅 基于 主题 的 方法 支持 有 效 的 实现 与 基于 内 容 的 方法 相 比 ， 表 达能 力 
不 足 〈 通 过 附加 的 过 滤器 功能 来 弱化 
此 问题 ) 
实时 和 可 靠 性 保证 支持 一 致 视图 的 维护 需要 额外 的 算法 ,会 产生 相关 的 
(以 时 间 的 方式 ) 开销 
图 21-8 与 通信 范 型 相关 的 设计 选择 总 汇 934] © 


总 之 ， 我 们 看 到 了 一 个 混合 方案 ， 它 提供 两 种 不 同 的 通信 范 型 ， 用 于 支持 体系 结构 内 不 同 风格 的 
交互 。 这 人 允许 开发 人 员 为 每 一 个 特定 的 问题 域 选择 最 佳 的 范 型 。 

我 们 将 在 以 下 各 节 重 复 这 种 风格 的 分 析 ， 从 而 从 整体 角度 了 解 与 Google 基础 设施 相关 的 关键 设计 
决策 。 


21.5 ”数据 存储 和 协调 服务 


我 们 现在 介绍 三 种 服务 : Google 文件 系统 (GFS), Chubby 和 Bigtable， 这 三 种 服务 一 起 为 更 高 层 
的 应 用 和 服务 提供 数据 和 协调 服务 。 在 Google 基础 设施 中 ， 它 们 是 相互 补充 的 ; 
e Google 文件 系统 是 一 个 分 布 式 文件 系统 ， 提 供 了 类 似 NFS 和 AFS 《相关 讨论 见 第 12 章 ) 的 服 
务 。 它 允许 以 文件 的 形式 访问 非 结构 化 数据 ， 但 对 Google 所 需 的 数据 和 数据 访问 风格 (例如 
非常 大 的 文件 ) 进行 了 优化 。 
Chubby 是 一 个 多 方面 的 服务 ， 例 如 ， 提 供 粗 粒 度 的 分 布 式 锁 ， 用 于 在 分 布 式 环境 中 的 协调 ， 
并 提供 极 少量 的 数据 存储 ， 用 于 配合 Google 文件 系统 所 提供 的 大 规模 存储 。 
© Bigtable 提供 对 表格 形式 的 结构 化 数据 进行 访问 ， 这 里 表格 可 以 以 多 种 方式 进行 索引 ， 例 如 按 
行 索引 或 者 按 列 索引 。 因 此 ，BigTable 是 分 布 式 数据 库 的 风格 ,但 和 许多 数据 库 不 同 ， 它 不 支 
持 所 有 的 关系 运算 符 (Google 认为 支持 全 部 的 关系 操作 符 会 引入 不 必要 的 复杂 人 性， 而 且 不 易 伸 
缩 ) 。 
这 三 项 服务 是 相互 依存 的 。 例 如 ，Bigtable 使 用 Google 文件 系统 作为 存储 ,使 用 Chubby 作为 协调 。 
接 下 来 我 们 研究 每 个 服务 的 细节 。 


21.5.1 Google 文件 系统 


第 12 章 对 分 布 式 文件 系统 这 个 主题 进行 了 详细 的 研究 ， 分 析 它 们 的 需求 和 整体 体系 结构 ， 并 详细 
研究 了 两 个 实例 ， 即 NFS 和 AFS。 这 些 文件 系统 都 是 通用 的 分 布 式 文件 系统 ， 为 各 种 组 织 内 和 跨 组 织 
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的 应 用 提供 文件 和 目录 抽象 。Google 文件 系统 (Google File System, GFS) 也 是 一 个 分 布 式 文件 系统 ; 
它 提供 了 类 似 的 抽象 ,但 为 Coogle 对 大 量 数据 的 存储 和 访问 等 特殊 需求 提供 了 定制 (Ghemawat et al. 
[2003] ) 。 我 们 将 在 下 面 看 到 ， 这 些 需 求 会 导致 和 NFS 以 及 AFS (和 其 他 分 布 式 文件 系统 ) 非常 不 同 
的 设计 决策 。 我 们 从 查看 Google 特定 的 需求 开始 讨论 GFS。 

GFS HÆR GFS 的 总 体 目标 是 为 了 满足 Coogle 的 搜索 引擎 和 其 他 Web 应 用 程序 的 迅速 增长 的 需 
求 。 出 于 对 这 些 特 定 领域 的 理解 ，Google 确定 了 下 列 CFS 需求 (参见 Chemawat 等 [2003] ) 。 

。 第 一 个 要 求 是 GFS 必须 可 靠 地 运行 在 21. 3. 1 节 讨论 的 物理 体系 结构 上 一 一 这 是 一 个 用 商用 硬 
件 搭建 的 非常 庞大 的 系统 。GFS 的 设计 者 开始 就 假设 组 件 会 失效 不 只 是 硬件 组 件 ， 还 包括 软 
件 组 件 ) ， 设 计 必 须 充分 容忍 这 样 的 故障 ， 使 应 用 级 的 服务 在 面 对 任何 可 能 的 故障 组 合 时 能 继 
续 执行 它们 的 操作 。 

GFS 根据 Google 的 使 用 模式 进行 了 优化 ， 包 括 存 储 的 文件 类 型 以 及 这 些 文件 的 访问 模式 。 与 其 
他 系统 相 比 ，GFS 中 的 文件 数量 并 不 是 非常 多 ,但 文件 大 小 会 非常 大 。 例 如 ，Ghemawat 等 
[2003] 的 报告 显示 需要 一 百 万 个 平均 100MB 大 小 的 文件 ,但 一 些 文件 可 以 到 GB 的 级 别 。 访 
问 模式 也 和 一 般 的 文件 系统 不 一 样 。 访 问 主要 是 大 文件 的 顺序 读 和 对 文件 追加 数据 时 的 顺序 
写 ，GFS 对 这 种 风格 的 访问 进行 了 定制 。 随 机 读 和 随机 写 少 量 数据 (后 者 很 少 ) 确实 也 会 发 
生 ， 系 统 也 支持 这 些 操 作 ， 但 系统 没有 针对 这 些 情况 进行 优化 。 文 件 访问 模式 会 受 多 种 应 用 的 
影响 ， 例 如 ， 许 多 数据 分 析 程 序 扫描 顺序 地 存储 在 单个 文件 中 的 网 页 ， 这 会 影响 文件 访问 模 
式 。 在 Google 中 ,并 发 访问 也 很 多 ， 大 量 并 发 追加 写 的 现象 非常 普遍 ， 并 且 时 常 伴 有 并 发 读 。 
GFS 必须 整体 上 满足 Google 基础 设施 所 有 的 要 求 ， 也 就 是 说 ， 它 必须 是 可 伸缩 的 〈 特 别 是 从 
数据 量 和 客户 数量 的 角度 ) ， 必 须 在 发 生 上 面 提 到 的 故障 时 是 可 靠 的 ， 它 必须 具有 良好 的 性 能 ， 
而 且 必须 是 开放 的 ， 因 为 它 应 该 支持 新 的 Web 应 用 的 开发 。 在 性 能 方面 ， 给 定 所 存储 的 数据 
文件 类 再 ， 该 系统 针对 读数 据 时 持续 的 高 吞吐 量 进行 了 优化 ， 而 不 是 优先 考虑 延迟 。 这 并 不 是 
说 延迟 是 不 重要 的 ， 更 确切 地 说 ， 为 了 实现 高 性 能 的 读 操作 和 大 量 数据 的 追加 操作 ， 需 要 对 这 
个 特殊 的 组 件 (GFS) 进行 优化 ， 以 保证 系统 整体 的 正常 运行 。 

这 些 需 求 和 NFS 或 AFS 的 需求 明显 不 同 ; NFS 和 AFS 必须 储存 大 量 通 常 很 小 的 文件 ， 常 常 发 生 随 
机 读 和 随机 写 。 以 下 将 讨论 这 些 区 别 导 致 的 非常 特别 的 设计 决策 。 

GFS $O GFS 提供 了 一 个 传统 的 文件 系统 接口 ， 该 接口 提供 了 一 个 层次 结构 的 命名 空间 ， 每 个 
单独 的 文件 由 文件 路 径 名 唯一 标识 。 虽 然 文 件 系统 不 完全 兼容 POSIX， 但 是 此 类 文件 系统 的 用 户 会 很 
熟悉 GFS 的 许多 操作 (参见 图 12-4); 
创建 文件 的 一 个 新 实例 ; 
删除 文件 的 一 个 实例 ; 
打开 一 个 指定 的 文件 ， 并 返回 一 个 句柄 ; 
关闭 一 个 句柄 指定 的 文件 ; 

从 指定 文件 中 读 取 数据 ; 
将 数据 写 到 指定 的 文件 中 。 

由 此 可 以 看 出 ，GFS 主要 的 操作 和 第 12 章 中 描述 的 平面 文件 服务 的 操作 非常 相似 《参见 
图 12-6) 。 我 们 应 该 假设 GFS 的 read 和 write 操作 需要 一 个 参数 来 指定 文件 中 的 起 始 偏 移 量 ， 这 与 平面 
文件 服务 的 情况 一 样 。 

API 还 提供 两 个 专门 的 操作 ， 快 腿 〈snapshot) 和 追加 记录 (record append) 。 前 一 个 操作 提供 一 个 
有 效 的 机 制 ， 可 以 复制 一 个 特定 的 文件 或 自 录 树 结构 。 后 者 支持 上 文 提 到 的 公共 访问 模式 ， 即 多 个 客 
户 同时 对 一 个 给 定 的 文件 追加 写 。 

GFS 的 体系 结构 “在 GFS 中 最 有 影响 力 的 设计 选择 是 将 文件 存储 在 固定 大 小 的 块 〈chunk) 中 ， 
每 个 块 的 大 小 是 64MB 。 与 其 他 文件 系统 相 比 ， 这 是 非常 大 的 。 这 一 方面 反映 了 GFS 中 存储 的 文件 的 
大 小 ; 另 一 方面 ， 这 个 决策 对 提供 高 效率 的 大 量 数据 的 顺序 读 和 追加 写 是 至 关 重 要 的 。 在 下 文 讨论 完 
GFS 体系 结构 的 更 多 细节 后 ， 我 们 再 继续 讨论 这 一 点 。 
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有 了 这 个 设计 选择 ，GFS 的 工作 是 提供 从 文件 到 块 的 上 映射， 然后 将 文件 的 标准 操作 映射 为 各 个 块 
上 的 操作 。 这 是 用 图 21-9 所 示 的 体系 结构 实现 的 ， 该 图 显示 了 一 个 GFS 文件 系统 的 实例 ， 它 映射 到 一 
个 给 定 的 物理 集群 。 每 一 个 GFS 集群 有 一 个 主 服务 器 和 多 个 块 服务 器 (chunkserver) (通常 有 数 百 
个 ) ， 它 们 共同 为 大 量 客户 同 时 访问 数据 提供 文件 服务 。 
控制 流 


pees 器 
eee | < 


ğ TI re GFS 块 服务 器 
eR AERP Rigi a eee. 数据 数据 块 














图 21-9 GFS 总 的 体系 结构 


主 服务 器 的 作用 是 管理 有 关 文 件 系统 的 元 数据 ， 这 些 元 数据 定义 了 文件 的 名 字 空间 、 访 问 控制 信 
息 和 将 每 个 文件 映射 到 相关 的 数据 块 集合 。 此 外 ， 所 有 的 块 都 被 复制 〈 默 认 有 三 个 独立 的 块 服务 器 ， 
但 可 以 由 程序 员 指定 复制 级 别 ) 。 在 主 服务 器 中 可 以 维护 副本 的 位 置信 息 。 在 GFS 中 ， 复 制 是 重要 的 ， 
以 便 在 发 生 〈 预 期 中 的 ) 硬件 和 软件 故障 时 为 GFS 提供 必要 的 可 靠 性 。 这 与 NFS 或 AFS 相反 ， 它 们 不 
给 更 新 提供 复制 (参见 第 12 章 ) 。 

关键 的 元 数据 被 持久 化 地 存储 在 一 个 操作 日 志 中 ， 以 便 支 持 系 统 央 省 时 的 恢复 〈 再 次 增强 可 靠 
性 ) 。 特 别 是 ， 上 面 提 到 的 所 有 信息 除了 副本 的 位 置信 息 ， 其 他 都 要 在 日 志 中 记录 (副本 位 置信 息 通 
过 轮 询 块 服务 器 并 且 询问 它们 当前 存储 了 哪些 副本 来 恢复 ) 。 

尽管 主 服务 器 是 集中 的 ， 但 是 发 生 一 个 单 点 故障 时 ， 由 于 操作 日 志 已 被 复制 到 几 个 远程 机 器 上 ， 
所 以 主 服务 器 可 以 很 容易 地 从 故障 中 恢复 。 这 样 的 单一 的 集中 式 的 主 服务 器 的 好 处 是 ， 它 有 一 个 文件 
系统 的 总 体 视图 ， 因 此 它 可 以 作出 最 优 的 管理 决策 ， 例 如 与 块 放置 相关 的 决策 。 这 种 机 制 也 更 容易 实 
现 ， 人 允许 Google 在 一 个 相对 较 短 的 时 间 内 开发 出 GFS。McKusick 和 Quinlan [2010] 说 明了 这 种 不 寻常 
的 设计 选择 的 合理 性 。 

如 果 客 户 需 要 从 文件 中 一 个 特定 的 字 节 偏 移 量 开始 访问 数据 ， 那 么 GFS 客户 库 首 先 翻 译 出 文件 名 
和 数据 块 索引 对 〈 因 为 给 定 块 的 大 小 是 固定 的 ， 所 以 很 容易 计算 出 ) ， 然 后 以 RPC 请 求 的 形式 发 送 到 
主 服务 器 〈 使 用 协议 缓冲 区 ) 。 主 服务 器 回复 合适 的 块 标识 符 和 副本 的 位 置 ， 然 后 这 些 信 息 缓 存在 客 
户 中 ， 随 后 利用 这 些 信 息 通过 发 起 直接 的 RPC 调用 到 一 个 有 副本 的 块 服务 器 对 数据 进行 访问 。 这 样 ， 
只 有 最 开始 的 交互 涉及 主 服务 器 ， 主 服务 器 随后 完全 在 决策 圈 外 ， 实 现 了 控制 流 和 数据 流 的 分 离 一 一 
这 个 分 离 对 维持 高 性 能 的 文件 访问 非常 关键 。 考 虑 到 每 块 的 大 小 ， 这 意味 着 一 旦 一 个 块 被 识别 和 定位 ， 
那么 该 64MB 数据 的 读 取 速 度 就 取决 于 文件 服务 器 和 网 络 允 许 的 读 取 速 度 ， 没 有 任何 与 主 服务 器 的 其 
他 交互 ， 直 到 需要 访问 另 一 个 块 。 因 此 ， 最 小 化 了 与 主 服务 器 的 交互 ， 优 化 了 吞吐 量 。 同 样 的 道理 也 
适用 于 连续 追加 操作 。 

需要 注意 的 是 较 大 的 块 大 小 带 来 的 进一步 的 影响 是 GFS 需要 维护 较 少 的 元 数据 (例如 ， 如 果 一 个 
块 大 小 采用 64KB ， 元 数据 量 将 增加 1000 倍 ) 。 反 过 来 ， 这 意味 着 GFS 的 主 服务 器 可 以 将 所 有 的 元 信息 
保存 在 主 存 中 〈 例 外 见 下 文 ) ， 从 而 大 大 降低 了 控制 操作 的 延迟 。 

随 着 该 系统 在 使 用 中 不 断 增 长 ， 集 中 式 主 服务 器 机 制 逐 渐 出 现 了 问题 

。 尽管 控制 流 和 数据 流 已 经 分 离 并 且 对 主 服务 器 的 性 能 进行 了 优化 ， 但 现在 发 现 主 服务 器 是 设计 

中 的 一 个 瓶颈 。 
© 尽管 较 大 的 块 大 小 会 使 产生 的 元 数据 量 减少 ， 但 当 每 个 主 服务 器 存储 的 元 数据 量 逐 渐 增 长 到 一 
定 程 度 时 ， 实 际 上 很 难 将 所 有 元 数据 保存 在 主 存 中 。 
由 于 这 些 原 因 ，Google 现在 正在 设计 一 个 新 的 解决 方案 ， 该 解决 方案 以 分 布 式 的 主 服 务 器 为 特色 。 
缓存 ;正如 我 们 在 第 12 章 看 到 的 ， 组 存在 文件 系统 的 性 能 和 可 伸缩 性 方面 经 常 起 到 至 关 重 要 的 作 
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用 (参见 2.3. 1 节 关于 缓存 的 更 一 般 性 的 讨论 ) 。 有 趣 的 是 ，GFS 并 不 大 量 地 使 用 缓存 。 如 上 所 述 ， 块 
被 首次 访问 后 ， 块 的 位 置信 息 被 缓存 在 客户 中 ， 以 减少 与 主 服务 器 的 交互 。 除 此 之 外 ， 没 有 使 用 其 他 
的 客户 缓存 。 特 别 是 ，GFS 客户 不 缓存 文件 数据 。 鉴 于 大 多 数 访问 涉及 的 是 连续 流 ， 例 如 通过 读 取 
Web 内 容 产生 所 需 的 倒 排 索引 ， 所 以 ， 缓 存 这 些 数据 对 系统 性 能 帮助 较 小 。 此 外 ， 通 过 限制 客户 端的 
缓存 ，GFS 也 各 免 了 对 缓存 一 致 性 协议 的 需要 。 

CFS 也 不 提供 任何 特定 的 服务 器 端 ( 即 块 服务 器 ) 缓存 策略 ， 而 是 依靠 Linux 中 的 缓冲 区 缓存 将 
经 常 访问 的 数据 缓存 在 内 存 中 。 

日 志 : GFS 是 Google 中 使 用 日 志 进行 调试 和 性 能 分 析 的 典型 例子 。 特 别 是 ，GFS 的 服务 器 保存 着 
大 规模 的 诊断 日 志 ， 这 些 日 志 记 录 着 重要 的 服务 器 事件 和 所 有 RPC 请 求 和 应 答 。 这 些 日 志 被 不 断 监 
测 ， 当 出 现 系统 问题 相关 事件 时 ， 这 些 日 志 被 用 于 识别 底层 的 原因 。 

GFS 中 的 一 致 性 管理 ”考虑 到 每 一 个 块 在 CES 中 都 有 副本 ， 在 面 对 改 变数 据 的 操作 ( 即 写 操作 和 
追加 记录 操作 ) 时 保持 副本 的 一 致 性 很 重要 。CFS 提供 一 种 管理 数据 一 致 性 的 方法 : 

。 保持 前 面 提 到 的 数据 流 和 控制 流 的 分 离 ， 将 主 服务 器 的 参与 度 降 到 最 低 ， 以 此 允许 高 性 能 的 数 

据 更 新 操作 ; 
。 提供 了 一 种 松弛 一 致 性 ， 例 如 ， 在 过 加 记录 时 ， 识 别 该 操作 提供 的 特殊 的 语义 。 一 致 性 管理 广 
法 按 如 下 方式 工作 

当 对 一 个 块 进行 一 次 变动 时 ( 即 写 、 志 加 或 删除 操作 ) ， 主 服务 器 向 其 中 一 个 副本 授予 该 块 的 租约 
(lease) ， 然 后 将 其 指定 为 主 副本 (primary) 。 该 主 副 本 负责 为 随后 针对 该 块 的 悬而未决 的 所 有 并 发 变动 提供 
品行 化 顺产 。 由 块 租约 的 顺序 结合 主 副本 决定 的 顺序 可 以 确定 一 个 全 序 。 特 别 是 ， 租 约 允 许 主 副本 在 本 地 副 
本 上 进行 数据 变动 ， 并 且 可 以 控制 次 副本 的 变动 顺序 ， 然后 另 一 个 主 副本 将 获得 租约 ， 等 等 。 

因此 ， 在 变动 时 所 涉及 的 步 又 如 下 〈 略 有 简化 ) : 

。 当 接收 到 来 自 客户 的 请 求 时 ， 主 服务 器 授予 其 中 一 个 副本 ( 主 副本 ) 一 个 租约 ， 然 后 将 主 副 
本 和 其 他 (次 ) 副本 的 标识 符 返回 给 客户 。 
客户 将 所 有 数据 发 送 到 多 个 副本 ， 数 据 暂时 存放 在 缓冲 区 缓存 ， 直 到 收 到 进一步 的 指示 才 进行 写 操 
作 (再 一 次 保持 控制 流 和 数据 流 的 分 离 ， 并 且 在 租约 的 基础 之 上 封装 了 一 个 轻 量 级 的 控制 机 制 ) 。 
一 且 所 有 的 天 本 都 确认 收 到 此 数据 ， 客 户 向 主 副本 发 送 一 个 写 请 求 ， 然后 主 副 本 确定 并 发 请 求 
的 串 行 顺序 ， 并 按照 该 顺序 在 主 副本 所 在 站 点 进行 更 新 。 

主 副本 请 求 在 次 副本 上 以 同样 的 顺序 执行 同样 的 变动 ， 等 到 所 有 的 变动 成 功 执行 后 次 副本 发 送 
回 确认 信息 。 

如 果 收 到 了 所 有 的 确认 信息 ， 主 副本 向 客户 报告 成 功 信息 ， 否 则 报告 失败 信息 ， 失 败 信息 表明 
主 副本 上 的 变动 成 功 执行 ， 在 部 分 但 不 是 所 有 次 副本 上 执行 失败 。 这 被 视 为 操作 失败 ， 使 副本 
处 于 不 一 致 的 状态 。CFS 试图 通过 重 试 失败 的 变动 来 克服 这 种 故障 。 在 最 坏 的 情况 下 ， 这 仍然 
不 会 成 功 ， 因 此 这 种 方法 不 保证 一 致 性 。 

有 趣 的 是 ， 可 以 将 这 种 设计 和 第 18 章 中 讨论 的 复制 技术 联系 起 来 。GFS 采用 被 动 复制 的 体系 结 
构 ， 并 进行 了 一 个 重要 的 改动 。 在 被 动 复制 中 ,更 新 发 送 到 主 副本 ， 接 着 主 副本 负责 将 后 续 的 更 新 发 
送 到 备份 服务 器 ， 并 确保 它们 是 协调 的 。 在 GFS 中 ， 客 户 发 送 数据 到 所 有 的 副本 ， 但 该 请 求 发 送 到 主 
副本 ， 由 主 副本 负责 调度 实际 的 变动 (上 文 提 到 的 数据 流 和 控制 流 的 分 离 ) 。 这 使 得 大 量 数据 的 传输 
可 以 独立 于 控制 流 进行 优化 。 

在 变动 中 ， 写 操作 和 追加 记录 操作 之 间 有 一 个 重要 的 区 别 。 写 操作 指定 一 个 变动 发 生 的 偏 移 量 ， 
而 追加 记录 操作 不 会 (在 一 个 给 定 的 时 间 点 上 ,不论 变动 发 生 在 何 处 ， 变 动 均 写 人 到 文件 尾 ) 。 在 前 
一 种 情况 下 ， 变 动 的 位 置 是 预先 确定 的 ， 而 在 后 一 种 情况 下 ， 是 由 系统 决定 的 。 并 发 写 入 到 相同 位 置 
是 不 可 序列 化 的 ， 并 可 能 导致 文件 区 域 的 损坏 。 对 于 追加 记录 操作 ，GFS 保证 追加 操作 会 至 少 发 生 -- 
次 且 是 原子 的 ( 即 作 为 一 个 连续 的 字 节 序列 ) ， 但 系统 并 不 保证 块 的 所 有 副本 相同 有些 可 能 有 重复 
数据 ) 。 再 次 强调 ， 将 这 部 分 内 容 与 第 18 章 的 内 容 结合 起 来 是 有 益 的 。 第 18 章 中 的 复制 策略 都 是 通用 
的 ， 而 考虑 到 Google 的 应 用 程序 和 服务 可 以 容忍 一 致 性 放松 后 的 语义 ， 这 里 提 到 的 复制 策略 是 针对 特 
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定 领域 的 ， 并且 削弱 了 一 致 性 的 保证 。( 针 对 特定 领域 的 复制 的 男 一 个 例子 是 由 Xu 和 Liskov [1989] 
为 元 组 空间 设计 的 复制 算法 ,在 6. 5. 2 节 中 可 以 找到 。) 


21.5.2 Chubby 


Chubby[ Burrows 2006] 在 Google 基础 设施 中 是 一 个 关键 的 服务 ， 提 供 存储 服务 并 为 其 他 的 基础 设施 
服务 (包括 GFS 和 Bigtable) 提供 协调 服务 。Chubby 是 一 个 多 方面 的 服务 ， 提 供 四 种 不 同 的 用 途 : 

。 它 提供 粗 粒 度 的 分 布 式 锁 ， 可 以 为 大 规模 、 蜡 步 环境 中 的 分 布 式 活动 提供 同步 。 

© 它 提供 一 个 文件 系统 ， 为 小 文件 提供 可 靠 存储 (补充 GFS 提供 的 服务 ) 。 

。 它 可 以 用 来 支持 副本 集合 选举 主 副本 〈 例 如 GFS 需要 选举 主 副本 ， 相 关 讨 论 见 21. 5. 1 节 )。 

© 它 用 来 做 Google 内 部 的 名 字 服 务 。 

乍 一 看 ， 这 似乎 与 整体 设计 原则 中 的 简单 性 (做 一 件 事 并 且 做 好 ) 相抵 触 。 然 而 ， 如 果 我 们 展开 
Chubby 的 设计 ， 我 们 将 看 到 它 的 内 部 是 一 个 核心 服务 ， 其 为 分 布 式 共 识 提供 一 个 解决 方案 ， 而 其 他 方 
面 都 从 这 一 核心 服务 衍生 而 来 ， 该 核心 服务 针对 Google 的 使 用 方式 进行 了 优化 。 

我 们 从 Chubby 提供 的 接口 开始 研究 ， 然 后 仔细 查看 Chubby 系统 的 体系 结构 ， 以 及 这 一 体系 结构 
是 如 何 映射 到 物理 体系 结构 上 的 。 最 后 ， 我 们 详细 地 查看 一 下 Chubby 核心 部 分 中 的 分 布 式 共识 算法 
Paxos 的 实现 。 

Chubby 接口 ”Chubby 提供 一 个 基于 文件 系统 的 抽象 ， 采 取 最 早 由 Plan 9[ Pike et al. 19931 提出 的 
观点 ， 即 每 一 个 数据 对 象 是 一 个 文件 。 文 件 被 组 织 成 一 个 层次 的 名 字 空 间 ， 使 用 目录 结构 ， 文 件 名 具 
有 以 下 格式 : 

/\s/chubby_cell/ directory_name/. . . /file_name 

这 里 ，/ls 指 锁 服 务 ， 指 明 这 是 Chubby 系统 的 一 部 分 ，chubby_cell 是 Chubby 系统 的 一 个 特定 实例 
的 名 字 。( 在 Chubby 系统 中 ， 术 语 cell 用 来 表示 系统 的 一 个 实例 。) 紧 接 着 是 一 系列 的 目录 名 ， 以 file_ 
name 结束 。/ls/local 是 一 个 特殊 的 名 字 ， 它 被 解析 为 与 调用 应 用 或 者 服务 相关 的 本 地 单元 (48 Chubby 
系统 实例 ) 。 

Chubby 作为 一 个 锁 服 务 开始 其 生命 ; 其 意图 是 将 系统 中 所 有 的 东西 都 看 做 锁 。 然 而 ， 我 们 很 快 会 
发 现 ， 将 数据 量 (尤其 是 少量 ) 和 Chubby 实体 进行 关联 是 非常 有 用 的 一 一 在 了 解 Chubby 是 如 何 用 于 
主 副本 选举 时 ， 我 们 会 看 到 这 样 的 例子 。 因 此 Chubby 中 的 实体 兼 具 了 锁 和 文件 的 功能 。 它 们 可 以 单独 
用 于 加 锁 ， 或 者 用 来 存储 少量 数据 ， 或 者 将 少量 数据 〈 实 际 上 是 元 数据 ) 和 锁 操 作 结 合 起 来 。 

图 21-10 显示 了 Chubby 提供 的 API 的 简化 版 本 。open 和 close 是 标准 操作 open 操作 打开 一 个 命 
名 的 文件 或 目录 ,返回 一 个 指向 该 实体 的 Chubby 名 柄 。 客 户 可 以 指定 与 open 操作 相关 的 各 种 参数 ， 
包括 声明 预期 的 用 途 〈 例 如 ， 读 、 写 或 加 锁 ) ， 并 在 此 阶段 使 用 访问 控制 列表 进行 权限 检查 。close 操 
作 仅 仅 放 弃 使 用 该 句柄 。delete 用 于 删除 文件 或 目录 ( 当 目 录 有 子 目录 时 ， 此 操作 失败 ) 。 











色 操 OF a R 
通用 Open 打开 一 个 给 定名 字 的 文件 或 目录 ， 并 返回 一 个 句柄 
Close 关闭 与 该 句柄 相关 的 文件 
Delete 删除 该 文件 或 目录 
文件 GetContentsAndStat ( 按 原子 操作 方式 ) 返回 全 部 文件 内 容 和 与 文件 
相关 的 元 数据 
GetStat 仅 返 回 元 数据 
ReadDir 返回 目录 的 内 容 ， 即 名 称 和 所 有 子 目 录 的 元 数据 
SetContents ( 按 原子 操作 方式 ) 在 文件 里 写 人 全 部 内 容 
SetACL 写 入 新 的 访问 控制 列表 信息 
锁 Acquire 获取 文件 上 的 锁 
TryAcquire 试图 获取 文件 上 的 锁 
Release 释放 锁 











图 21-10 Chubby API 
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作为 文件 系统 ，Chubby 提供 了 对 整个 文件 进行 读 写 操作 的 小 型 操作 集合 ， 这 些 都 是 单独 的 操作 ， 
如 返回 文件 完整 的 数据 以 及 将 完整 数据 写 人 文件 。 采 用 这 种 整个 文件 的 方法 是 为 了 防止 大 文件 的 创建 ， 
因为 创建 大 文件 并 不 是 使 用 Chubby 的 初衷 。 第 一 个 操作 ，GetContentsAndStat ， 返 回 文件 的 内 容 以 及 与 
该 文件 相关 的 所 有 元 数据 (而 一 个 相关 的 操作 ，GetStat， 仅 仅 返 回 文件 相关 的 元 数据 ; ReadDir 操作 负 
责 读 取 与 目录 的 孩子 结 点 相关 的 名 字 和 元 数据 ) SetContents 将 内 容 写 入 文件 ，SetACL 提供 了 一 种 设 
置 访问 控制 列表 数据 的 方法 。 整 个 文件 的 读 和 写 都 是 原子 操作 。 

作为 一 个 锁 管 理 的 工具 ，Chubby 提供 的 主要 操作 是 Acquire, TryAcquire 和 Release, 顾名思义 ， 
Acquire 和 Release 对 应 的 操作 为 16.4 节 介绍 的 获取 锁 和 释放 锁 ; TryAcquire 是 Acquire 的 非 阻 塞 变种 。 
请 注意 ， 虽 然 Chubby 提供 的 锁 为 建议 性 的 (advisory) ， 但 应 用 程序 或 服务 必须 通过 正确 的 协议 获取 和 
释放 锁 。Chubby 的 开发 者 确实 考虑 过 使 用 强制 锁 ， 即 系统 强制 所 有 其 他 用 户 都 无 法 访问 锁定 的 数据 ; 
但 建议 性 的 锁 提 供 了 额外 的 灵活 性 和 弹性 ,将 冲突 检测 的 责任 留 给 了 程序 员 [ Burrows 2006] 。 

如 果 应 用 程序 需要 防止 一 个 文件 被 并 发 访问 ,那么 它 可 以 同时 使 用 Chubby 的 这 两 个 角色 : 在 文件 
中 存储 数据 ， 并 在 访问 这 些 数据 之 前 获得 锁 。 

在 分 布 式 系统 中 ，Chubby 也 可 以 用 于 选举 主 副本 ， 即 在 被 动 复制 管理 中 选 出 一 个 副本 作为 主 副本 
(分 别 参考 15.3 节 讨论 的 选举 算法 和 18. 3. 1 节 讨 论 的 被 动 复制 ) 。 首 先 ， 所 有 候选 副本 都 试图 获取 与 
选举 相关 的 锁 ， 只 有 一 个 会 成 功 。 那 么 该 候选 副本 成 为 主 副 本 ， 所 有 其 他 候选 副本 都 变 为 次 副本 。 获 
胜 的 主 副本 将 自己 的 标识 符 写 人 相关 的 文件 ， 其 他 进程 可 以 通过 读 取 这 个 标识 符 数据 而 确认 主 副 本 的 
身份 。 如 上 所 述 ， 这 是 在 分 布 式 系统 中 锁 和 文件 相 结 合 的 一 个 重要 的 例子 。 这 也 说 明了 如 何在 共识 服 
务 之 上 实现 主 副本 的 选举 ， 它 可 以 替代 15.3 节 介绍 的 基于 环 的 方法 或 霸道 算法 。 

最 后 ，Chubby 支持 一 种 简单 的 事件 机 制 ， 客 户 在 打开 文件 时 可 以 注册 ， 以 便 接 收 所 有 与 该 文件 相 
关 的 事件 消息 。 更 具体 来 说 ， 客 户 在 调用 open 操作 时 可 以 作为 一 个 选项 来 订阅 一 系列 事件 。 相 关 的 事 
件 可 以 通过 回调 异步 传递 给 客户 。 事 件 的 例子 包括 文件 内 容 被 修改 、 文 件 句 柄 失效 等 。 

Al POSIX 相 比 ，Chubby 大 幅 削 减 了 文件 系统 编程 接口 。Chubby 支持 适用 于 整个 文件 的 读 取 和 更 新 
操作 ， 但 它 不 支持 在 目录 之 间 移 动 文件 的 操作 ， 也 不 支持 符号 链接 或 硬 链接 。 此 外 ，Chubby 只 维护 有 
限 的 元 数据 (与 访问 控制 、 版 本 和 校 验 和 相关 的 ， 以 保护 数据 的 完整 性 ) 。 

Chubby 体系 结构 ”如 上 所 述 ，Chubby 系统 的 一 个 实例 被 称 为 一 个 单元 ， 每 个 单元 由 较 少数 量 
(通常 5 个 ) 的 副本 组 成 ， 其 中 一 个 被 指定 为 主 副本 。 客 户 应 用 程序 通过 Chubby 的 库 访 问 这 些 副本 ， 
它 使 用 21. 4. 1 节 中 所 述 的 RPC 服务 与 远程 服务 嚣 通信。 副本 被 分 别 存储 在 故障 独立 的 场地 ， 以 减少 关 
联 故 障 的 可 能 性 一 一 例如 ， 它 们 不 会 包含 在 同一 个 机 架 中 。 所 有 副本 通常 包含 在 一 个 给 定 的 物理 集群 
中 ,虽然 这 并 不 是 协议 正确 性 所 要 求 的， 并 且 有 跨越 Googe 数据 中 心 的 实验 性 单元 已 经 创建 。 

每 个 副本 维护 一 个 小 型 的 数据 库 ， 其 元 素 是 Chubby 名 字 空 间 中 的 实体 ， 即 目录 和 文件 / 锁 。 被 复 
制 的 数据 库 的 一 致 性 是 通过 使 用 底层 的 共识 协议 实现 的 《Lamport 的 Paxos 算法 [ Lamport 1989, Lam- 
port 1998] 的 一 种 实现 ) ， 该 协议 基于 操作 日 志 的 维护 (下 面 我 们 将 研究 该 协议 的 实现 ) 。 考 虑 到 日 志 
会 随 着 时 间 的 推移 变 得 非常 大 ，Chubby 还 支持 创建 快照 一 一 在 一 个 给 定 的 时 间 点 上 的 完整 的 系统 状 
态 。 一 旦 执行 了 快照 ， 那 么 以 前 的 日 志 以 及 相应 的 系统 一 致 性 状态 可 以 被 删除 了 ;， 将 以 前 的 快照 和 日 
志 中 记录 的 操作 集合 结合 起 来 ， 可 以 确定 系统 一 致 的 状态 。Chubby 整体 结构 如 图 21-11 所 示 。 

一 个 Chubby 的 会 话 (session) 是 一 个 客户 和 一 个 Chubby 单元 之 间 的 关系 。 两 个 实体 之 间 通 过 Kee- 
pAlive 握手 保持 会 话 。 为 了 提高 性 能 ，Chubby 库 实 现 了 客户 缓存 ， 用 于 保存 文件 数据 、 元 数据 和 打开 
的 句柄 信息 。 和 GFS 〈 它 支持 大 量 的 顺序 读 和 追加 写 ) 相反 ， 客 户 缓存 非常 有 效 ， 这 是 由 于 Chubby 中 
的 小 文件 有 可 能 多 次 被 访问 。 由 于 该 客户 缓存 的 存在 ， 系 统 必须 保持 文件 、 客 户 缓存 以 及 文件 的 不 同 
副本 之 间 的 一 致 性 。Chubby 中 所 要 求 的 缓存 一 致 性 实现 如 下 。 每 当 一 个 变动 发 生 时 ， 相 关 的 操作 〈 例 
如 SetContents) 会 被 阻塞 ， 直 到 所 有 相关 的 缓存 都 失效 〈 出 于 效率 考虑 ， 当 失效 发 生 时 ， 会 立即 在 主 
副本 发 出 的 KeepAlive 应 答 中 携带 失效 请 求 ) 。 缓 存 的 数据 也 从 不 直接 更 新 。 
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图 21-11 Chubby 总 的 体系 结构 


最 终结 果 是 为 缓存 一 致 性 提供 了 一 个 简单 的 协议 ， 该 协议 向 Chubby 客户 传递 了 确定 性 的 语义 。 将 
其 与 NFS 中 的 客户 缓存 机 制 进 行 对 比 ,， 例 如， 在 NFS 中 ， 变 动 不 会 导致 缓存 副本 的 立即 更 新 ， 因 而 导 
致 不 同 的 客户 结 点 上 可 能 存在 不 同 的 文件 版 本 。 将 其 与 AFS 的 缓存 一 致 性 协议 进行 比较 也 是 非常 有 趣 
的 ， 我 们 把 它 作 为 一 个 习题 留 给 读者 来 解决 (参见 习题 21.7)。 

这 种 确定 性 对 于 许多 使 用 Chubby 来 存储 访问 控制 列表 的 客户 应 用 和 服务 〈 例 如 ，21. 5. 3 节 讨 论 
的 Bigtable) 而 言 非 常 重要 。Bigtable 需要 从 缓存 的 复制 角度 在 所 有 的 备份 上 保证 访问 控制 列表 的 一 致 
更 新 。 注 意 ， 这 种 确定 性 使 得 Chubby 被 用 作 Google 内 部 的 名 字 服 务 器 。 在 13.2.3 WP, RRB 
DNS 允许 名 字数 据 的 不 一 致 性 。 虽 然 在 互联 网 上 这 是 可 以 容忍 的 ， 但 是 Google 基础 设施 的 开发 者 更 倾 
向 于 由 Chubby 提供 的 更 一 致 的 视图 ， 他 们 使 用 Chubby 文件 维护 名 字 到 地 址 的 映射 。Burrows [2006] 
详细 讨论 了 Chubby 作为 名 字 服 务 的 用 法 。 

Paxos 的 实现 ”Paxos 是 提供 分 布 式 共识 的 一 组 协议 (参见 15. 5 节 了 解 更 多 关于 分 布 式 共识 协议 
的 讨论 ) 。 共 识 协议 对 一 个 副本 集合 进行 操作 ， 其 目标 是 在 管理 这 些 副本 的 服务 器 之 间 达 成 协定 ， 从 而 
更 新 为 一 个 公共 的 值 。 这 一 工作 是 在 下 面 的 环境 中 完成 的 : 

© 备份 服务 器 可 能 以 任意 速度 进行 操作 ， 还 可 能 失效 (随后 可 能 会 恢复 ) 。 

。 备份 服务 器 可 以 访问 能 在 崩溃 后 恢复 的 稳定 、 持 久 的 存储 。 

。 消息 可 能 出 现 丢 失 、 乱 序 或 重复 。 它 们 可 以 被 无 误 地 发 送出 去 ,但 是 传递 时 间 的 长 短 不 定 。 

因此 ，Paxos 本 质 上 是 异步 系统 〈 参 见 2.4.1 节 ) 的 一 个 分 布 式 共识 协议 ， 而且 在 这 一 领域 具有 支 
配 地 位 。Chubby 的 开发 者 强调 上 述 假设 反映 了 基于 互联 网 的 系统 (如 Google) 的 真实 本 性 ， 并 告诫 实 
践 者 对 共识 算法 做 出 更 强 的 假设 例如， 用 于 同步 系统 的 算法 ) [Burrows 2006] 。 

回顾 第 15 章 ， 其 中 提 到 不 可 能 保证 异步 系统 中 的 一 致 性 ， 但 是 已 提出 了 多 项 技术 用 以 解决 这 个 问 
题 。Paxos 通过 保证 正确 性 而 非 活性 来 运行 ， 即 Paxos 不 能 保证 算法 终止 。( 待 我 们 了 解 该 算法 的 细节 
后 再 回 到 这 个 问题 上 来 。) 

该 算法 由 Leslie Lamport F 1989 年 在 一 篇 名 为 兼职 议会 (The Part-Time Parliament) [ Lamport 1989, 
Lamport 1998] 的 论文 中 首次 提出 。 受 到 他 对 拜占庭 将 军 (相关 讨论 参见 15. 5. 1 47) 描述 的 启发 ， 他 
再 次 采用 类 比 的 方法 提出 了 这 一 算法 ， 这 一 次 他 用 的 是 名 为 Paxos 的 希腊 岛 上 的 一 个 虚构 议会 的 例子 。 
Lamport 在 他 的 网 站 [research. microsoft. com] 上 有 趣 地 描述 了 对 议会 这 一 表述 的 反应 。 
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在 这 个 算法 中 ， 任 一 副本 可 以 提交 一 个 值 ， 目 标 是 达成 对 最 终 值 的 共识 。 在 Chubby 中 ， 协 定 等 同 
于 所 有 的 副本 用 该 值 作 为 它们 更 新 日 志 中 的 下 一 项 ,这样 为 所 有 场地 上 的 日 志 实现 了 一 个 一 致 的 视图 。 
在 网 络 稳定 性 较 好 且 大 部 分 副本 可 以 运行 较 长 时 间 的 情况 下 ， 这 个 算法 可 以 保证 最 终 达成 共识 。 更 正 
式 地 说 ，Kirsch 和 Amir [2008] 给 出 了 Paxos 如 下 的 活性 特性 : 

Paxos-L1 (进展 性 ) ; 如 果 存 在 一 个 稳定 的 、 包 含有 大 多 数 服务 器 的 服务 器 集合 ， 那 么 如 果 这 个 集 
合 中 的 一 个 服务 器 发 起 了 一 个 更 新 ， 这 个 集合 中 的 某 一 成 员 最 终 会 执行 该 更 新 。 

Paxos-L2 (最 终 复 制 ) : 如 果 服 务 器 * 执行 了 一 个 更 新 ， 并 且 存 在 一 个 包含 s 和 7 的 服务 器 集合 以 
及 一 个 时 间 点 ， 在 此 时 间 点 之 后 ， 该 集合 没有 遇 到 任何 通信 或 进程 故障 ， 那 么 "> 最终 会 执行 该 更 新 。 

从 直观 上 来 看 ， 当 网 络 表 现 为 异步 方式 时 ,算法 无 法 保证 达到 一 致 性 ， 但 当 越 来 越 多 的 同步 (或 
Bz) 的 条 件 被 满足 时 ， 最 终 将 实现 一 致 性 。 

Paxos 算法 ，Paxos 算法 运行 步骤 如 下 。 

第 一 步 : 该 算法 依赖 于 为 给 定 的 共识 决策 选举 一 个 协调 者 (coordinator) 的 能 力 。 考 虑 到 协调 者 
可 能 失效 ， 所 以 采用 了 一 个 灵活 的 选举 过 程 ， 这 一 过 程 可 能 导致 多 个 协调 者 并 存 〈 老 的 和 新 的 ) ， 因 
此 要 识别 出 老 的 协调 者 发 来 的 消息 并 丢弃 。 为 了 确定 出 正确 的 协调 者 ， 通 过 为 每 个 协调 者 分 配 一 个 
序列 号 ， 从 而 对 协调 者 进行 排序 。 每 个 副本 维护 它 到 目前 为 止 所 看 到 的 最 高 的 序列 号 ， 如 果 这 个 副 
本 要 竞标 成 为 协调 者 ,那么 它 要 选择 一 个 更 高 的 唯一 的 序列 号 ， 并 用 一 个 propose 消息 向 所 有 副本 
广播 。 

确保 可 能 的 协调 者 选取 的 序列 号 唯一 是 非常 重要 的 ， 两 个 (或 更 多 ) 协调 者 所 选取 的 值 不 能 相 
H. BRATA 个 副本 ， 一 个 唯一 的 序列 号 可 以 这 样 生成 : 如 果 为 每 个 副本 分 配 一 个 唯一 的 标识 纪 
(在 0 到 -1 之 间 取 值 )， 那 么 选 出 比 目 前 为 止 所 看 到 的 其 他 序列 号 都 大 的 最 小 序列 号 *， 并 使 得 
smodn=i,, (例如 现在 有 5 个 副本 ， 对 于 唯一 标 误 记 为 3 的 副本 ， 最 近 看 到 的 序列 号 为 20， 则 该 副本 
应 选取 23 作为 下 一 次 党 标的 序列 号 。) 

如 果 其 他 副本 没有 看 到 一 个 更 高 的 竞标 序列 号 ， 它 们 回复 一 个 promise 消息 ， 表 明 它 们 保证 不 处 理 
更 低 序 列 号 的 其 他 协调 者 〈 即 老 的 协调 者 ) ， 或 者 发 送 一 个 否决 确认 ， 表 明 他 们 不 会 选 此 协调 者 。 每 
个 promise 消息 还 包含 发 送 者 最 近 收 到 的 一 个 值 〈 作 为 共识 的 一 个 提议 ) ， 如 果 没 有 得 到 其 他 的 提议 ， 
PARAS 〈(nul) 。 如 果 某 个 副本 已 经 收 到 大 部 分 的 promise 消息 ， 则 该 副本 被 选举 为 协调 者 ， 支 持 
该 协调 者 的 那些 副本 被 称 为 法 定 人 群 (quorum), 

第 二 步 : 选举 出 的 协调 者 必须 选 出 一 个 值 ， 随 后 将 这 个 值 用 accept 消息 发 送 给 相关 的 法 定 人 群 。 
如 果 任 一 promise 消息 中 包含 一 个 值 ， 那 么 协调 者 必须 从 其 收 到 的 值 的 集合 中 选取 〈 任 ) 一 个 ; 否则 ， 
协调 者 可 以 自由 选择 一 个 值 。 收 到 该 accept 消息 的 法 定 人 群 成 员 必 须 接 受 这 个 值 ， 并 通过 acknowledge 
消息 确认 收 到 该 值 。 在 该 算法 中 ， 协 调 者 可 能 无 限期 地 等 待 ， 直 到 大 部 分 副本 确认 已 收 到 accept 消息 
为 止 。 

第 三 步 ， 如 果 大 部 分 副本 确认 了 ， 那 么 已 经 有 效 地 达到 了 共识 。 然 后 ， 协 调 者 广播 一 个 commit 消 
息 以 通知 其 他 副本 已 达成 共识 ; 否则 ， 协 调 者 丢弃 提议 值 ， 重 新 开始 。 

上 面 提 到 的 术语 是 在 Google 中 使 用 的 ， 例 如 在 Chandra 等 [2007] 文献 中 。 在 文献 中 ， 关 于 这 个 
协议 的 描述 可 以 使 用 其 他 的 术语 ， 如 根据 角色 不 同 分 为 提议 者 (proposer) 、 接 受 者 (acceptor), FY 
者 (leamer) ， 等 等 。 

在 不 考虑 故障 的 情况 下 ， 通 过 如 图 21- 12 所 示 的 消息 交换 可 以 达成 共识 。 在 存在 故障 的 情况 下 ， 
这 个 算法 也 是 安全 的 一 例如， 一 个 协调 者 或 某 个 副本 出 现 故障 ， 或 者 消息 出 现 丢 失 、 乱 序 、 重 复 或 
延迟 的 问题 (如 上 文 所 述 ) 。 算 法 正确 性 的 证 明 已 经 超出 了 本 书 的 范围 ， 但 其 严重 依赖 第 一 步 中 的 排 
序 ， 并 且 和 下 列 事实 紧密 相关 : 由 于 法 定 人 群 机制 ， 所 以 如 果 两 个 大 多 数 服务 器 集合 在 一 个 提议 值 上 
达成 共识 ， 则 至 少 有 一 个 公共 副本 与 这 两 个 服务 器 集合 达成 共识 。 另 外 ， 如 果 网 络 分 区 ， 由 于 至 多 一 
个 分 区 能 构建 出 一 个 大 多 数 服务 器 集合 ， 因 此 法 定数 机 制 也 能 保证 正确 性 。 
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第 二 步 : 寻找 共识 
Accept (value) 
协调 者 i 副本 
第 三 步 : 达成 共识 
Commit 时 
协调 者 


— 


图 21-12 Paxos 中 的 消息 交换 (无 故障 情况 下 ) 


回 到 算法 终止 这 一 问题 上 来 ， 如 果 两 个 提议 者 相互 竞争 ， 无 限期 地 竞标 使 得 序列 号 越 来 越 大 ， 
Paxos 可 能 无 法 终止 。 这 与 Fischer 等 [1985] 关注 的 在 异步 系统 中 不 可 能 绝对 保证 达成 共识 这 一 结论 
一 致 。 

其 他 的 实现 中 的 问题 ”在 Chubby 中 ,在 一 个 单独 的 值 上 达成 协定 是 不 够 的 ， 需 要 在 一 系列 的 值 上 
达成 协定 。 在 实践 过 程 中 ， 算 法 必须 重复 执行 以 使 日 志 中 的 一 个 实体 集 达 成 协定 。 在 Chandra 等 
[2007] 中 ， 这 被 称 为 Multi- Paxos。 在 Multi- Paxos 中 ， 有 很 多 可 能 的 优化 策略 ， 包 括 选 举 一 个 协调 者 ， 
使 其 当选 〈 很 可 能 较 长 ) 一 段 时 间 ， 这 样 可 以 避免 第 一 步 的 重复 执行 。 

Chandra 等 的 论文 还 探讨 了 在 现实 世界 设置 中 实现 Paxos 的 工程 方面 的 挑战 ， 尤 其 是 在 Google 基础 
设施 提供 的 复杂 的 分 布 式 系统 设置 中 。 在 这 篇 有 趣 又 有 益 的 论文 中 ， 他 们 还 讨论 了 从 算法 描述 和 形式 
化 证 明 到 使 算法 作为 Chubby 系统 中 的 一 部 分 有 效 运行 的 挑战 ， 包 括 处 理 磁盘 出 错 以 及 诸如 系统 升级 这 
样 的 上 下 文 事件 。 这 篇 论文 强调 了 严谨 的 测试 机 制 的 重要 性 ， 尤 其 针对 容错 系统 的 重要 组 成 模块 ， 这 
与 在 21.3 节 中 提 到 的 Google 的 广泛 测试 原则 一 致 。 


21.5.3 Bigtabte 


GFS 提供 的 是 一 个 可 以 存储 和 访问 大 的 平面 文件 的 系统 ， 根 据 文件 的 内 容 在 文件 中 的 字 节 偏 移 量 对 
其 进行 访问 。GFS 允许 程序 存储 海量 数据 ， 所 执行 的 读 、 写 (尤其 是 追加 写 ) 操作 均 为 Googe 内 部 的 典 
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型 使 用 方式 进行 了 优化 。 虽 然 GFS 是 Google 的 一 个 重要 的 组 成 成 分 ， 但 它 不 能 满足 Google 所 有 的 数据 需 
求 。 因 此 ， 需 要 一 个 分 布 式 存储 系统 ， 其 中 ,数据 的 索引 以 一 种 较为 复杂 的 、 与 数据 的 内 容 和 结构 相关 
的 方式 建立 ， 借 此 提供 对 这 些 数据 的 访问 。Web 搜索 和 几乎 所 有 其 他 的 Google 应 用 ,包括 抓 取 设施 、 
Google Earth/Maps, Google Analytics 和 个 性 化 搜索 ， 使 用 的 都 是 结构 化 的 数据 访问 。 例 如 ，GCoogle Analyt- 
ics 将 关于 用 户 访问 一 个 网 站 的 点 击 情况 信息 存储 在 一 个 表 里 ， 并 在 另 一 张 表 中 存储 对 分 析 信息 的 总 结 。 
前 一 张 表 约 200TB ， 后 一 张 表 约 20TB。( 分 析 采 用 MapReduce 完成 ， 相 关 讨 论 参见 下 面 的 21.6 节 。) 

Google 的 一 种 选择 是 实现 (或 重用 ) 一 个 分 布 式 数据 库 ， 例 如 ， 一 个 关系 型 数据 库 ， 其 需要 具备 
所 有 的 关系 型 操作 符 〈 例 如 ，union selection, projection, intersection 和 join) 。 但 是 要 在 这 样 的 分 布 式 
数据 库 中 实现 较 好 的 性 能 和 可 伸缩 性 是 很 困难 的 ， 更 关键 的 是 ，Coogle 应 用 的 工作 方式 决定 了 其 不 需 
要 用 到 关系 型 数据 库 提 供 的 所 有 功能 。 因 此 Google 引 人 了 Bigtable[ Chang et al. 2008 ] ， 它 保留 了 关系 型 
数据 库 提 供 的 “ 表 ” 模 型 ， 并 且 提 供 了 更 加 简单 的 接口 ， 这 样 的 接口 更 适合 Google 提供 的 应 用 和 服务 
的 工作 方式 ,而 且 它 还 被 设计 用 于 支持 海量 结构 化 数据 集 的 高 效 存储 和 检索 。 在 介绍 Bigtable 内 部 体 
系 结构 之 前 ， 让 我 们 先 详细 地 看 一 看 Bigtable 的 接口 ， 着 重 了 解 其 提供 的 功能 是 如 何 实现 的 。 

Bigtable 接口 Bigtable 是 一 个 分 布 式 存储 系统 ， 它 支持 大 量 的 结构 化 数据 的 存储 。 它 的 命名 揭示 
了 它 所 提供 的 功能 ， 即 存储 非常 大 的 表 (通常 为 TB 级 ) 。 更 准确 来 说 ，Bigtable 支持 表格 的 容错 存储 、 
创建 和 删除 ， 其 中 一 个 表 是 包含 一 些 单元 (cel) 的 三 维 结构 ， 这 些 单元 是 用 一 个 行 主键 、 一 个 列 主键 
和 一 个 时 间 惟 来 索引 的 。 

行 : 表 中 的 每 一 行 有 相应 的 行 主键 ， 行 主键 是 一 个 至 多 AKB 大 小 的 任意 字符 串 (虽然 大 部 分 行 主 
键 长 度 较 短 ) 。 一 个 行 主 键 由 Bigtable 映射 到 一 个 行 地址 。 一 个 给 定 的 行 可 能 包括 关于 一 个 给 定 实体 〈 如 
一 个 网 页 ) 的 大 量 数据 。 考 虑 到 Google 中 经 常 处 理 网 页 信息 ， 例 如 ， 若 某 行 包含 了 某 个 URL 引用 的 资源 
的 信息 ， 则 通常 把 该 URL 作为 该 行 的 行 主键 。Bigtable 对 一 个 给 定 的 表 按 行 主键 进行 字典 式 排 序 ， 这 种 
方式 产生 了 一 些 有 趣 的 影响 。 特 别 是 当 我 们 查看 底层 体系 结构 时 ， 我 们 会 发 现 ， 行 序列 会 被 映射 到 数据 
片 (tablets) 上 ， 这 里 ， 数 据 片 是 数据 分 发 和 部 署 的 单位 。 因 此 ， 按 照 以 字典 序 相近 或 相 邻 的 方式 来 分 
配 行 主键 会 有 益 于 地 域 性 的 管理 。 这 意味 着 ， 即 使 将 URL 设 定 为 主键 并 不 是 一 个 好 选择 ， 但 是 因为 公 
共 的 域名 会 被 排序 在 一 起 ， 所 以 将 URL 域名 部 分 的 顺序 倒转 过 来 可 以 使 数据 访问 具有 更 强 的 地 域 性 ， 
并 且 可 以 支持 域名 分 析 。 为 了 说 明 这 一 点 ， 我 们 看 一 个 BBC 网 站 上 有 关 体 育 新 闻 的 信息 存储 的 例子 。 
如 果 这 些 信息 存储 在 URL 为 www. bbe. co. uk/sport 和 www. bbe. co. uk/football 的 网 页 上 ， 那 么 排序 的 结 
果 是 相当 随机 的 ， 并 旦 是 受 前 几 个 域 的 字典 序 支配 的 。 然 而 如果 这 些 信息 根据 uk. co. bbe. www/sports 
和 uk. co. bbe. www/football 进行 存储 ， 那 么 它们 很 有 可 能 被 存储 在 相同 的 数据 片上 。 需 要 强调 的 是 ， 这 
些 主键 的 赋值 工作 完全 由 程序 员 来 完成 ， 因 此 ， 他 们 必须 了 解 Bigtable 的 排序 机 制 以 便 最 优 地 利用 系 
统 。 为 了 处 理 并 发 事件 ， 所 有 对 行 的 访问 都 是 原子 的 (这 和 GFS, Chubby 中 的 设计 决策 相似 ) 。 

列 : 列 的 命名 比 行 的 命名 更 加 结构 化 。 列 被 组 织 成 一 些 列 族 (column family) 一 一 列 族 是 逻辑 上 
的 分 组 ， 同 属 一 个 列 族 的 数据 趋向 于 同属 一 个 类 型 ， 在 一 个 列 族 中 的 列 用 限定 词 (qualifier) 加 以 区 
分 。 也 就 是 说 ， 用 语法 “ 族 名 : 限定 词 (family: qualifier) ”来 指定 一 个 列 ， 其 中 族 名 是 一 个 可 打印 的 
字符 串 ， 限 定 词 是 一 个 任意 字符 串 。 我 们 倾向 于 证 一 个 给 定 的 表 只 具有 相对 少量 的 列 族 ， 但 是 一 个 列 
族 中 可 能 有 许多 列 〈 列 用 不 同 的 限定 词 来 区 分 ) 。 引 用 Chang [2008] 的 例子 ， 上 述 规则 可 以 应 用 
到 与 网 页 相关 的 结构 化 数据 上 ， 将 网 页 内 容 、 与 网 页 相关 的 锚 点 ， 以 及 网 页 中 使 用 的 语言 作为 有 效 的 
列 族 。 如 果 一 个 列 族 名 仅 涉 及 一 列 ， 那 么 其 限定 词 可 能 被 省 略 。 例 如 ， 一 个 网 页 只 有 一 个 内 容 域 ， 那 
AMBA contents: 的 列 主键 即 可 指向 它 。 

mAAR: Bigtable 中 任 一 给 定 的 单元 有 很 多 版 本 ， 它 们 用 时 间 稚 来 索引 ， 这 里 ， 时 间 惟 可 以 是 一 个 
真实 的 时 间 ， 也 可 以 是 程序 员 指 定 的 任意 时 间 (例如 ， 一 个 逻辑 时 间 ， 如 在 14. 4 节 中 提 到 的 ， 或 一 个 
版 本 标识 符 ) 。 多 个 版 本 按照 时 间 巷 的 闭 序 排序 ， 即 最 近 的 时 间 鹤 排 在 第 一 位 。 这 种 设计 可 以 用 于 存储 
同一 数据 的 不 同 版 本 ,包括 网 页 的 内 容 ， 人 允许 系统 对 历史 数据 和 当前 数据 进行 分 析 。 可 以 让 表 自 动 对 
先前 的 版 本 进行 垃圾 回收 ， 这 减轻 了 程序 员 管 理 大 数据 集 和 相关 版 本 的 负担 。 这 种 三 维 表 的 抽象 如 图 
21-13 所 示 。 
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21-13 Bigtable 中 的 表 抽象 
Bigtable 提供 了 支持 多 种 操作 的 API， 这 些 操作 包括 ; 


。 表 的 创建 和 删除 ; 

。 表 中 列 族 的 创建 和 删除 ; 

。 访问 指定 行 的 数据 ; 

。 写 和 或 删除 单元 值 ; 

。 执行 原子 行 变 换 ， 包 括 数 据 访问 、 相 关 的 写 人 和 删除 操作 〈 不 支持 全 局 和 跨行 的 事务 ) ; 


不 同 列 族 之 间 的 迭代 操作 ， 包 括 用 正规 表达 式 识别 列 的 范围 ; 

。 把 表 、 列 族 与 元 数据 (如 访问 控制 信息 ) 关联 起 来 。 

可 以 看 出 ，Bigtable 比 关系 型 数据 库 要 简单 得 多 ， 而 且 更 适合 Google 应 用 的 工作 方式 。Chang 等 讨 
论 了 这 个 接口 是 如 何 支 持 网 页 数据 的 表 的 存储 的 〈 这 里 ， 行 代表 单独 的 网 页 ， 列 代表 与 给 定 网 页 相关 
的 数据 和 元 数据 ) ， 如 何 支 持 Google Earth 的 原始 数据 和 处 理 后 数据 的 存储 (这 里 , 行 代 表 地 理 分 区 ， 
列 代表 该 分 区 内 的 不 同 的 图 片 ) ， 以 及 如 何 支 持 Google Analytics 的 数据 的 存储 《〈 例 如， 维护 一 个 点 击 
情况 表 ， 其 中 行 代表 一 个 终端 用 户 会 话 ， 列 代表 相关 的 活动 ) 。 

下 面 介绍 底层 系统 总 的 体系 结构 。 

Bigtable 体系 结构 ”一 个 Bigtable 被 分 成 一 些 数据 片 ， 一 个 数据 片约 100 ~200MB 大 小 。Bigtable 基 
础 设施 的 主要 任务 是 管理 数据 片 ， 支 持 上 述 访 问 和 修改 相关 结构 化 数据 的 操作 。 具 体 实现 的 任务 还 包 
括 把 数据 片 结构 映射 到 底层 文件 系统 (CFS) 以 及 确保 系统 有 效 地 进行 负载 均衡 。 正 如 我 们 下 面 要 看 
到 的 ，Bigtable 充分 利用 了 GFS 和 Chubby 来 实现 数据 的 存储 和 分 布 式 协 调 。 

Bigtable 实现 的 单一 实例 被 称 为 一 个 集群 〈eluster) ， 每 个 集群 存储 多 个 表 。Bigtable 集群 的 体系 结 
HA GFS 的 体系 结构 相似 ， 它 由 三 个 主要 的 组 件 组 成 〈 如 图 21-14 所 示 ): 

。 客户 端的 一 个 库 组 件 ; 





© 一 个 主 服 务 器 ; 
© 可 能 是 大 量 的 数据 片 服务 器 。 
BP 
Bigtable : 
« Bigtable 
客户 库 > IRAR 
监控 、 数 据 片 
分 配 、 垃 圾 回收 
行 访问 
数据 片 服 务 器 .…… 数据 片 服务 器 


图 21-14 Bigtable 总 的 体系 结构 
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就 规模 而 言 ，Chang 等 报告 ， 在 2008 年 ，388 个 生产 集群 运行 在 多 个 Googe 机 器 集群 中 ， 每 个 集 
群 平均 约 有 63 个 数据 片 服务 器 ， 许 多 集群 上 的 数据 片 服务 器 会 更 多 (有 的 集群 有 500 多 个 数据 片 服务 
器 ) 。 每 个 集群 的 数据 片 服务 器 数量 是 动态 变化 的 ， 在 运行 过 程 中 向 系统 中 加 入 新 的 数据 片 服务 器 以 提 
POH A AOL a 

在 Bigtable 中 ， 两 个 主要 的 设计 决策 和 GFS 中 的 一 样 。 首 先 ， 出 于 完全 相同 的 理由 ，Bigtable 采用 了 
单一 主 服务 器 方法 ， 这 个 理由 就 是 为 了 维护 系统 状态 的 集中 化 视图 以 支持 优化 放置 和 负载 均衡 决策 ， 而 
且 这 种 方法 的 实现 简单 。 其 次 ， 其 实现 保证 了 控制 和 数据 的 严格 分 离 ， 其 主 服 务 器 维护 一 种 轻 量 级 的 控 
制 机 制 ， 而 数据 访问 完全 通过 数据 片 服务 器 进行 ， 主 服务 器 在 这 一 阶段 并 不 参与 〈 在 访问 大 数据 集 时 ， 
通过 直接 与 数据 片 服务 器 交互 来 确保 吞吐 量 的 最 大 化 ) 。 特 别 地 ， 主 服务 器 相关 的 控制 任务 如 下 : 

© 监控 数据 片 服务 器 的 状态 ， 对 新 的 数据 片 服务 器 的 可 用 性 和 已 有 的 数据 片 服 务 器 的 故障 进行 

响应 ; 

s 把 数据 片 分 配 到 数据 片 服务 器 ， 并 保证 有 效 地 负载 均衡 ; 

。 对 存储 在 GFS 的 底层 文件 进行 垃圾 回收 。 

Bigtable 主 服务 器 不 参与 将 数据 片 映 射 到 底层 持久 化 数据 〈 如 上 所 述 ， 存 储 在 GFS H) 这 个 核心 
任务 ， 因 此 ，Bigtable HE GFS 做 得 更 好 。 这 意味 着 Bigtable 客户 不 必 与 主 服务 器 通信 (将 其 与 GFS 中 的 
open 操作 相 比 较 ， 该 操作 需要 涉及 主 服务 器 ) ， 这 样 的 设计 大 大 减轻 了 主 最 务 器 上 的 负载 并 降低 了 主 
服务 器 成 为 瓶颈 的 可 能 性 。 

现在 看 看 Bigtable 是 如 何 利 用 GFS 来 存储 数据 ， 并 如 何以 创新 的 方式 用 Chubby 来 实现 监控 和 负载 
均衡 的 。 

Bigtable 中 的 数据 存储 : 将 Bigtable 中 的 表 映 射 到 CFS 上 包括 儿 个 步骤 ， 总 结 如 下 。 

© 表 按 行 分 解 成 多 个 数据 片 ， 每 行 大 小 约 100 ~ 200MB ， 并 将 每 一 行 映 射 到 一 个 数据 片上 。 因 此 ， 

一 个 给 定 的 表 会 由 多 个 数据 片 组 成 ， 这 取决 于 表 的 大 小 。 随 着 表 的 增长 ， 会 加 入 额外 的 数据 片 。 

。 每 个 数据 片 用 一 个 存储 结构 表示 ， 该 存储 结构 包含 了 一 些 文件 集合 和 实现 日 志 功 能 的 存储 结 

构 ， 其 中 ， 这 些 文件 集合 以 特定 形式 〈SSTable) 存储 数据 。 

© 从 数据 片 到 SSTable 的 映射 是 一 个 由 了 B * 树 衍生 出 的 层次 索引 结构 提供 的 。 

下 面具 体 看 一 看 存储 表示 和 映射 。 

在 Bigtable 中 一 个 数据 片 的 精确 存储 表示 如 图 21- 15 所 示 。 在 Bigtable 中 主要 的 存储 单元 是 
SSTable。( 它 是 一 种 文件 格式 ， 也 被 应 用 在 Googe 基础 设施 的 其 他 地 方 。) SSTable 被 组 织 成 一 个 已 排 
序 的 、 不 可 变 的 从 主键 到 值 的 映射 ， 其 中 ， 主 键 和 值 均 为 任意 字符 串 。 其 提供 的 操作 有 :高效 读 取 一 
个 与 给 定 主键 相关 联 的 值 ， 以 及 在 一 个 给 定 主键 的 范围 内 的 一 系列 值 上 进行 类 代 。SSTable 的 索引 被 写 
人 到 SSTable 文件 的 末尾 ， 并 在 访问 一 个 SSTable 时 ,被 读 人 人 内存。 这 意味 着 一 个 给 定 的 项 可 以 通过 单 
次 磁盘 读 操 作 读 和 人。 一 个 完整 的 SSTable 可 以 可 选 地 存储 在 内 存 中 。 


保存 在 内 存 中 memtable 





保存 在 GFS 





写 SSTable 文 件 
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一 个 给 定 的 数据 片 由 若干 SSTable 表示 。Bigtable 并 不 直接 在 SSTable 上 执行 变动 操作 ,为 了 支持 
恢复 功能 (参见 第 17 章 ) ， 写 人 操作 首先 在 日 志 上 执行 ， 日 志 也 保存 在 GFS 中 。 日 志 项 被 写 透 到 存储 
在 主 存 中 的 memtable 中 。 因 此 ，SSTable 成 为 一 个 数据 片 状态 的 快照 这样， 在 出 现 故障 时 ， 可 以 通过 
重新 执行 最 近 一 次 快照 以 后 的 日 志 项 来 实现 恢复 。 读 人 操作 是 通过 将 SSTable 中 的 数据 和 memtable 合 
并 得 到 的 视图 来 实现 的 。 正 如 Chang 等 [2008] 所 报告 的 ， 为 了 维护 高 效 的 操作 ， 在 这 个 数据 结构 上 
执行 了 不 同 层次 的 压缩 。 注 意 ，SSTable 也 能 被 压缩 以 减少 Bigtable 中 的 特定 表 对 存储 空间 的 需求 。 用 
户 可 以 指定 是 否 对 表 进 行 压缩 以 及 所 使 用 的 压缩 算法 。 

如 上 所 述 ， 主 服务 器 不 参与 将 表 映 射 到 存储 的 数据 的 工作 ， 映 射 的 管理 是 通过 遍历 基于 BS 树 概 念 
创建 的 索引 来 进行 的 。(B Me B 树 的 一 种 ， 其 中 所 有 的 实际 数据 都 存储 在 叶 结 点 中 ， 其 他 结 点 存储 
索引 数据 和 元 数据 。) 

Bigtable 的 客户 要 查找 一 个 数据 片 的 位 置 ， 需 要 通过 查找 Chubby 中 的 一 个 特定 的 文件 开始 搜索 ， 
该 文件 存储 了 一 个 根 数据 片 〈root tablet) 的 位 置信 息 ， 而 根 数据 片 中 包含 了 树 结构 的 根 索引 ， 还 包含 
了 关于 其 他 数据 片 的 元 数据 ， 尤 其 是 关于 其 他 元 数据 片 的 元 数据 ， 这 里 ， 元 数据 包含 了 实际 数据 片 的 
位 置信 息 。 根 数据 片 和 其 他 元 数据 片 构成 了 一 个 元 数据 表 ， 它 们 之 间 唯 一 的 区 别 是 根 数据 片 中 的 项 包 
含 了 关于 元 数据 片 的 元 数据 ， 而 元 数据 片 包含 了 实际 数据 片 的 元 数据 。 采 用 这 种 机 制 ， 树 的 深度 不 超 
过 3 层 。 元 数据 表 中 的 项 把 数据 片 分 区 映射 到 位 置信 息 上 ， 包括 这 个 数据 片 的 存储 表示 信息 (包括 
SSTable 集合 和 相关 的 日 志 ) 。 

总 的 体系 结构 见 图 21-16。 为 了 简化 三 层 结 构 ， 客 户 在 访问 该 数据 结构 时 ， 缓 存 了 位 置信 息 ， 并 且 
也 预 取 了 和 其 他 表 相 关 的 元 数据 。 
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图 21-16 Bigtable 采用 的 层次 化 索引 机 制 


监控 :Bigtable 以 一 种 很 有 趣 的 方式 使 用 Chubby 来 监控 数据 片 服务 器 。Bigtable 在 Chubby 中 维护 
了 一 个 目录 , 该 目录 包含 了 每 一 个 代表 可 用 数据 片 服务 器 的 文件 。 当 有 一 个 新 的 数据 片 服务 器 到 来 时 ， 
系统 在 该 目录 中 创建 一 个 新 的 文件 ， 更 重要 的 是 ， 得 到 该 文件 的 一 个 互 斥 锁 。 这 个 文件 的 存在 标志 着 
数据 片 服务 器 完全 可 用 ， 并 准备 好 由 主 服务 器 分 配 数据 片 ， 该 互 斥 锁 提 供 了 两 方 通信 的 一 种 途径 : 
© 从 数据 片 服务 器 端 : 每 个 数据 片 服务 器 监控 其 互 斥 锁 ， 如 果 互 斥 锁 失效 ， 它 就 停止 其 数据 片 服 
务 。 这 很 有 可 能 是 由 于 网 络 分 区 破坏 了 Chubby 会 话 。 如 果 该 文件 仍 存 在 〈 见 下 文 ) ， 数 据 片 服 
务 器 会 试图 重新 获取 互 斥 锁 ; 如 果 该 文件 已 消失 ， 那 么 服务 器 终止 自身 。 如 果 一 个 服务 器 由 于 
其 他 原因 而 终止 ， 例 如 ， 因 为 它 收 到 将 它 的 机 器 用 于 其 他 目的 的 通知 ， 那 么 数据 片 服 务 器 会 放 
弃 其 互 斥 锁 ， 进 而 触发 重新 分 配 。 
© 从 主 服务 器 端 : 主 服务 器 周期 性 地 查询 互 斥 锁 的 状态 。 如 果 锁 失效 ， 或 数据 片 服 务 器 不 响应 
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那么 数据 片 服 务 器 或 Chubby 一 定 出 现 了 问题 。 主 服务 器 试图 获取 该 锁 ， 如 果 获 取 成 功 ， 那 么 
它 能 推断 出 Chubby 还 在 活动 ， 问 题 存在 于 数据 片 服务 器 中 。 接 着 ， 主 服务 器 会 从 目录 中 删除 
文件 ， 这 将 导致 数据 片 服务 器 终止 自身 〈 如 果 该 数据 片 服务 器 还 没有 失效 )。 然 后 ， 主 服务 器 
必须 将 那个 服务 器 上 所 有 的 数据 片 重新 分 配 到 其 他 的 数据 片 服务 器 上 。 
这 一 设计 的 根本 原因 是 重用 已 被 测试 过 的 、 可 靠 的 服务 Chubby， 来 实现 额外 层面 的 监控 ， 而 不 是 
专门 为 了 监控 的 目的 而 提供 特定 的 监控 服务 。 
负载 均衡 : 为 了 分 配 数据 片 ， 主 服务 器 必须 将 集群 中 的 可 用 数据 片 映射 到 适当 的 数据 片 服务 器 上 。 
从 上 面 的 算法 可 以 看 出 ， 主 服务 器 拥有 一 个 精确 的 数据 片 服务 器 列表 和 一 个 与 该 集群 相关 的 所 有 的 数 
据 片 的 列表 ， 其 中 ， 服 务 器 列表 中 的 数据 片 服 务 器 已 准备 好 并 愿意 存储 数据 片 。 主 服务 器 还 维护 当前 
映射 信息 ， 以 及 一 个 未 分 配 的 数据 片 列 表 〈 例 如 ， 当 一 个 数据 片 服务 器 从 系统 中 被 移 除 时 ， 需 要 修改 
上 述 信息 ) 。 通 过 拥有 系统 的 全 局 视图 ， 主 服务 器 根据 负载 请 求 的 响应 ， 确 保 将 未 分 配 的 数据 片 分 配 到 
适当 的 数据 片 服务 器 上 ， 并 随 之 更 新 相应 的 映射 信息 。 
注意 ， 主 服务 器 自身 也 有 一 个 互 斥 锁 〈 即 主 锁 ) ， 如 果 由 于 Chubby 会 话 断 开导 致 主 锁 失效 ， 那 么 
主 服务 器 将 终止 自身 〈 同 样 重用 了 Chubby 来 实现 附加 的 功能 ) 。 这 并 不 会 停止 对 数据 的 访问 ， 但 是 会 
使 控制 操作 无 法 进行 ， 因 此 Bigtable 在 这 一 阶段 仍然 可 用 。 当 主 服务 器 重启 时 ， 它 需要 重新 获取 当前 
状态 。 主 服务 器 首先 创建 一 个 新 的 文件 并 获取 互 斥 锁 以 确保 其 为 集群 中 的 唯一 主 服务 器 ， 然 后 遍历 目 
录 以 找到 数据 片 服务 器 ， 向 数据 片 服务 器 请 求 关于 数据 片 分 配 的 信息 ， 并 建立 它 负责 的 所 有 数据 片 的 
一 个 列表 ， 进 而 推断 出 未 分 配 的 数据 片 。 最 后 ， 主 服务 器 继续 进行 它 的 常规 操作 。 


21.5.4 ”关键 设计 选择 总 结 
与 数据 存储 和 协调 服务 相关 的 设计 选择 总 结 ， 如 图 21-17 所 示 。 











成 分 设计 选择 理 由 权 衡 
GFS 使 用 较 大 的 块 大 小 (64MB) 适合 GFS 中 的 文件 大 小 ; 对 ”随机 访问 一 小 部 分 文件 的 效率 
大 数据 量 的 顺序 读 和 追加 写 是 ”不 高 
高 效 的 ; 最 小 化 元 数据 量 
使 用 集中 式 的 主 服务 器 主 服务 器 维护 全 局 视图 , 通 。 ” 单 点 失效 (通过 维护 操作 日 志 
知 管理 决策 ; 易于 实现 副本 来 减轻 此 问题 ) 
分 离 控 制 流 和 数据 流 高 性 能 的 文件 访问 ， 最 小 化 必须 处 理 主 服务 器 和 块 服务 器 ， 
主 服 务 器 的 参与 使 得 客户 库 复 杂 化 
松弛 一 致 性 模型 高 性 能 ， 拓 展 CFS 操作 的 数据 可 能 不 一 致 ， 尤 其 是 重复 
语义 数据 
Chubby ”结合 了 锁 与 文件 抽象 多 目标 ,， 例 如， 支持 选举 需要 理解 和 辨别 不 同 的 方面 
整个 文件 的 读 和 写 对 小 文件 非常 高 效 不 适合 大 文件 
客户 缓存 具有 严格 一 致 性 确定 性 的 语义 维护 严格 一 致 性 的 开销 
Bigtable 。 ”使 用 表 抽 象 高 效 支持 结构 化 数据 比 关 系 型 数据 库 的 开销 小 
使 用 集中 化 的 主 服 务 器 同上 ， 主 服务 器 拥有 全 局 视 MARK, WAI 
图 ; 易于 实现 
分 离 控制 流 和 数据 流 高 性 能 的 数据 访问 
最 小 化 主 服务 器 的 参与 
强调 监控 和 负载 均衡 支持 海量 并 行 客户 的 能 力 与 维护 全 局 状态 相关 的 开销 





图 21-17 与 数据 存储 和 协调 相关 的 设计 选择 总 汇 





这 项 分 析 显示 的 最 大 的 特点 是 ， 设 计 选择 提供 了 三 个 单独 的 、 各 自 相 对 简单 的 、 面 向 特定 使 用 风 


格 的 服务 ， 但 它们 合 起 来 却 能 很 好 地 覆盖 Google 应 用 和 服务 的 需求 。 从 GES 和 Chubby 提供 的 互补 的 


工作 方式 ， 以 及 Bigtable 在 GFS 和 Chubby 提供 的 底层 服务 的 基础 上 提供 结构 化 数据 ， 我 们 可 以 很 明显 
感受 到 这 一 点 。 这 一 设计 选择 也 重复 了 通信 范 型 所 采用 的 方法 (参见 21. 4.3 节 ) ， 据 此 设计 选择 ， 多 
项 技术 被 提出 ， 其 中 的 每 一 项 都 针对 Google 应 用 的 工作 方式 进行 了 优化 。 
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21.6 分 布 式 计算 服 务 


为 了 补充 存储 和 协调 服务 ， 支 持 存储 在 GFS 和 Bigtable 中 的 大 数据 集 上 的 高 性 能 分 布 式 计算 是 非 
常 重要 的 。Google 基础 设施 借助 MapReduce 服务 和 高 级 Sawzal 语言 来 支持 分 布 式 计算 。 下 面 我 们 将 详 
细 地 介绍 MapReduce， 然 后 简要 地 研究 一 下 Sawzall 语言 的 主要 特点 。 


21.6.1 MapReduce 


考虑 到 Google 使 用 的 大 数据 集 ， 分布 式 计算 需 要 通过 将 数据 分 成 小 的 分 片 (fragment) ， 并 对 这 些 
分 片 并 行 地 分 析 来 完成 ， 这 样 可 以 充分 利用 21. 3. 1 节 中 描述 的 物理 体系 结构 所 提供 的 计算 资源 。 这 样 
的 分 析 包括 一 些 普 通 的 任务 ， 如 排序 、 搜 索 和 构建 倒 排 索引 (索引 包括 一 个 从 词 到 其 在 不 同文 件 中 的 
位 置 的 映射 ， 它 是 实现 搜索 功能 的 关键 ) 。MapReduce[ Dean and Ghemawat 2008] 是 一 个 简单 的 编程 模 
型 ， 用 于 支持 这 样 的 应 用 程序 开发 ， 它 向 程序 员 隐 藏 了 底层 细节 ， 包 括 在 底层 物理 基础 设施 上 进行 的 
与 并 行 计算 、 故 障 监控 与 恢复 、 数 据 管理 以 及 负载 平衡 相关 的 细节 。 

在 研究 系统 是 如 何 实现 的 之 前 ， 我 们 先 看 一 看 MapReduce 提供 的 编程 模型 的 细节 。 

MapReduce 接口 ” 隐 含 在 MapReduce 背后 的 根本 原则 是 基于 对 计算 的 一 种 认识 ， 即 许多 并 行 计 算 
共享 同一 模式 : 

。 将 输入 数据 分 成 若干 块 (chunk) ; 

。 对 这 些 数 据 块 进 行 初步 的 处 理 来 产生 中 间 结 果 ; 

。 综合 这 些 中 间 结 果 来 产生 最 终 的 输出 。 

相关 算法 的 规约 可 以 用 两 个 函数 表述 ， 一 个 是 执行 初步 的 处 理 ， 另 一 个 是 从 中 间 值 生成 最 终结 果 。 
因而 可 能 通过 这 两 个 函数 的 不 同 实现 来 支持 多 种 风格 的 计算 。 重 要 的 是 ， 通 过 提取 出 这 两 个 函数 ， 其 
他 的 功能 就 可 以 在 不 同 的 计算 间 共 享 ， 这 样 就 大 大 降低 了 构建 这 些 应 用 的 复杂 性 。 

更 特别 的 是 ，MapReduce 用 两 个 函数 map 和 reduce 来 指定 一 种 分 布 式 计 算 。( 虽然 函 数 式 编程 语言 
的 目的 不 是 为 了 进行 并 行 计算 ， 但 是 MapReduce 方法 受到 了 函数 式 编程 语言 如 Lisp 的 设计 思想 的 部 分 
影响 ， 它 提供 了 具有 相同 名 字 的 函数 。) 

。 map 将 一 个 键 - 值 对 集合 作为 输入 ， 产 生 一 个 中 间 的 键 - 值 对 集合 作为 输出 。 

。 将 中 间 的 键 - 值 对 结果 按 主 键 的 值 进行 排序 ， 这 样 所 有 的 中 间 结 果 就 按照 中 间 主 键 进 行 了 排 

序 。 该 结果 被 分 成 几 组 ,传递 给 reduce 实例 ， 由 它 对 这 些 键 - 值 对 进行 处 理 ， 并 为 每 个 组 产生 
一 个 值 的 列表 (对 于 某 些 计算 ,这 可 能 是 一 个 单一 的 值 ) 。 

为 了 说 明 MapReduce 的 操作 ， 让 我 们 考虑 一 个 简单 的 例子 。 在 21.2 节 中 ， 我 们 说 明了 Web 搜索 
“distributed systems book” 涉及 的 各 个 方面 。 我 们 将 通过 搜索 整个 字符 串 来 简化 这 一 过 程 ， 即 在 海量 内 
容 中 〈 如 在 Web 抓 取 到 的 网 页 中 ) 搜索 “distributed systems book” 这 个 短语 。 在 这 个 例子 中 ，map 和 
reduce 函数 将 完成 下 面 的 任务 : 

。 假定 提供 一 个 网 页 名 和 其 内 容 作 为 map 函数 的 输入 ， 那 么 map 函数 将 对 内 容 进 行 线 性 搜索 ， 

每 次 它 找到 按 “distributed”、“systems”、“book” 顺 序 出 现 的 字符 捉 时 ， 就 产生 一 个 由 这 个 短 
语 和 包含 该 短语 的 Web 文件 的 名 字 组 成 的 键 - 值 对 。( 可 以 扩展 这 个 例子 ， 从 而 生成 以 该 文件 
中 的 位 置信 息 为 值 的 键 - 值 对 。) 

© 在 这 个 例子 中 reduce 函数 的 作用 不 大 ， 只 是 报告 中 间 结 果 已 准备 好 被 整合 到 一 个 完整 的 索引 中 。 

MapReduce 的 实现 负责 将 数据 分 成 若干 块 ， 创 建 多 个 map 和 reduce 函数 的 实例 ， 在 物理 基础 设施 
中 的 可 用 机 器 上 分 配 这 些 实例 并 激活 它们 ， 监 控 计 算 过 程 中 的 故障 情况 ， 实 现 恰当 的 恢复 策略 ， 分 发 
中 间 结 果 ， 并 确保 整个 系统 的 性 能 最 优 。 

利用 这 种 方法 ， 可 以 通过 重用 底层 MapReduce 框架 来 大 量 降 低 代 码 量 。 例 如 ，2003 年 Google 重新 
实现 了 其 主要 的 索引 生产 系统 ， 将 MapReduce 中 的 C ++ 代码 量 由 3800 行 降低 到 700 行 一 一 虽然 是 包 
揪 在 一 个 比较 小 的 系统 中 ， 但 代码 量 仍 有 很 大 程度 的 降低 。 这 种 方法 也 带 来 了 其 他 重要 的 益处 ， 由 于 
应 用 逻辑 与 相关 的 分 布 式 计算 的 管理 之 间 有 了 一 个 清晰 的 界限 (这 是 和 8.4 节 所 叙述 的 基于 容器 的 系 
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统 内 在 的 关注 点 分 离 相 类 似 的 原则 ) ， 更 新 算法 变 得 更 加 容易 。 此 外 ， 对 底层 MapReduce 实现 的 改进 
立即 对 所 有 的 MapReduce 应 用 产生 了 积极 的 影响 。 这 样 做 的 缺点 是 ， 虽 然 可 以 通过 指定 map, reduce 
以 及 其 他 的 函数 来 定制 一 些 功能 ,但 是 这 是 一 个 规范 性 更 强 的 框架 ， 这 一 点 在 下 面 可 以 很 清楚 地 看 到 。 

为 了 进一步 说 明 MapReduce 的 应 用 ， 我 们 在 图 21-18 中 给 出 了 一 些 常用 例子 ， 以 及 它们 是 如 何 通 


过 使 用 map 和 reduce 函数 来 实现 的 。 出 于 完整 性 考虑 ， 图 中 还 给 出 了 由 MapReduce 框架 执行 的 计算 中 
的 共用 步骤 。 这 些 例子 的 进一步 细节 可 以 在 Dean 和 Ghemawat[ 2004] 中 找到 。 
函数 初始 步骤 Map 阶 段 中 间 步 又 Reduce 阶 段 
词 计数 对 每 个 在 数据 划分 对 中 间 集 合 的 每 个 词 ， 
中 出 现 的 词 ， 生 成 统计 1 的 数量 ` 
<7], 1> 
查找 如 果 它 和 一 个 给 定 的 a 
模式 匹配 ， 输 出 一 行 
排序 将 数据 划分 成 
2 : ite 对 于 输入 数据 的 每 一 项 ， 根据 键 - 值 对 的 bod 
注意 : 这 很 大 固定 大 小 的 块 ， 
Sm ie spe 输出 待 排序 的 键 - 值 对 中 间 主 键 对 其 
程度 依赖 于 用 来 进行 处 理 进行 归并 /排序 
中 间 步 又 
倒 排 索引 解析 相关 的 文档 ， 不 论 对 每 个 词 ， 生 成 
该 词 存在 于 哪个 文档 中 ， 一 个 (已 排序 的 ) 
输出 一 个 形 如 < 词 ,文档 文档 ID 的 列表 
ID> 的 对 





\ 
图 21-18 {EJH MapReduce 的 例子 


MapReduce 体系 结构 ”如 上 所 述 ，MapReduce 由 一 个 库 实 现 ， 它 隐藏 了 与 并 行 和 分 布 相关 的 细 
节 ， 人 允许 程序 员 把 重点 放 在 指定 map 和 reduce 函数 上 。 这 个 库 是 基于 Google 基础 设施 的 其 他 方面 而 建 
立 的 ， 尤 其 是 ， 它 使 用 RPC 进行 通信 ， 并 使 用 GFS 对 中 间 值 进行 存储 。MapReduce 还 经 常 从 Bigtable 
中 获取 输入 数据 并 生成 一 个 表 作为 结果 ， 正 如 上 文 提 到 的 Google Analytics 例子 那样 (参见 21. 5. 3 节 )。 
MapReduce 程序 的 整体 执行 过 程 如 图 21-19 所 示 ， 其 中 展示 了 执行 过 程 中 的 主要 阶段 : 


第 一 阶段 是 把 输入 文件 分 成 戏份 ， 每 一 份 的 大 小 一 般 是 16 ~64MB (没有 GFS 的 一 块 大 ) 。 其 
实际 大 小 可 以 由 程序 员 调 整 ， 因 此 程序 员 可 以 为 了 执行 后 续 特定 的 并 行 处 理 对 其 进行 优化 。 利 
用 一 个 (可 编程 的 ) 划分 函数 可 以 将 与 中 间 结 果 相 关 的 主键 空间 分 成 尺 份 。 因 此 整个 计算 过 
程 包括 M UK map 函数 的 运行 和 次 reduce 函数 的 运行 。 

MapReduce 库 从 集群 中 的 可 用 的 机 器 池 中 启动 一 些 工作 机 (worker)， 其 中 一 台 为 主 工作 机 ， 
其 他 用 来 运行 map 或 reduce 函数 的 相关 步骤 。 通 常 工作 机 的 数量 远 少 于 M+R, 例如 ， 在 Dean 
和 Ghemawat[ 2008] 的 报告 中 显示 ， 在 MM=200000、R =5000 的 典型 环境 下 ， 分 配 了 2000 台 工 
作 机 去 完成 任务 。 主 工作 机 的 任务 是 监控 其 他 工作 机 的 状态 ， 并 为 空闲 的 工作 机 分 配 运 行 map 
或 reduce 函数 的 任务 。 更 准确 来 说 ， 主 工作 机 跟踪 map 和 reduce 任务 的 状态 : BA (ide), 
处 理 中 (in process) 或 已 完成 (completed) ， 主 工作 机 还 维护 中 间 结 果 的 位 置信 息 ， 以 便 将 中 
间 结 果 传 递 给 用 来 完成 reduce 任务 的 工作 机 。 

一 个 被 分 配 完 成 map 任务 的 工作 机 首先 将 分 派 到 map 任务 的 输入 文件 的 内 容 读 取 进 来 ， 抽 取 
gt - 值 对 ， 并 把 它们 作为 map 函数 的 输入 数据 。map 函数 的 输出 数据 是 经 过 处 理 的 键 - 值 对 
集 ， 存 放 在 中 间 缓 冲 区 中 。 由 于 输入 数据 存储 在 GFS 中 ， 输 入 文件 要 被 复制 在 三 台 机 器 上 。 
主 工作 机 尝试 在 这 三 台 机 器 中 的 一 台 上 部 署 一 个 工作 机 以 确保 地 域 性 ， 并 使 网 络 带宽 使 用 最 小 
化 。 如 果 这 无 法 实现 ， 就 选择 靠近 数据 的 另外 一 台 机 器 。 

中 间 缓 冲 区 中 的 数据 会 被 定期 地 写 人 文件 ， 该 文件 与 map 计算 同 处 于 一 台 机 器 上 。 在 这 一 阶段 ， 
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数据 根据 划分 函数 被 分 成 及 个 区 域 。 这 一 划分 函数 ， 对 MapReduce 的 操作 至 关 重 要 ， 其 可 以 由 
程序 员 来 确定 ， 而 默认 的 是 执行 主键 上 的 散 列 函 数 ， 然 后 对 散 列 后 的 值 进行 模 尺 运算 以 生成 丸 
个 划分 ， 从 而 将 中 间 结 果 根 据 散 列 值 分 类 得 到 最 终结 果 。Dean 和 Ghemawat [2004] 提供 了 一 个 
可 供 参考 的 例子 ， 其 中 主键 为 URL， 程 序 员 想 通过 相关 的 主机 对 中 间 结 果 分 组 : hash( Hostname 
(key) )mod R。 当 划分 完成 后 ， 主 工作 机 会 收 到 通知 ， 然 后 会 请 求 执行 相应 的 reduce 函数 。 

当 工作 机 被 分 配 去 执行 reduce 函数 时 ， 它 利用 RPC 从 map 工作 机 的 本 地 磁盘 读 取 相 应 的 划分 。 
由 MapReduce 库 对 这 些 数 据 进 行 排序 ， 以 备 reduce 函数 进行 处 理 。 一 旦 排序 完成 ，reduce 工作 
机 遍历 该 划分 中 的 键 - 值 对 ， 应 用 reduce 函数 产生 一 个 累积 结果 集 ， 然 后 该 结果 集会 被 写 人 到 
一 个 输出 文件 中 。 这 一 过 程 持续 进行 ， 直至 该 划分 中 的 所 有 主键 都 被 处 理 完成 。 
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图 21-19 MapReduce 程序 的 整体 执行 过 程 


容错 的 实现 : MapReduce 的 实现 提供 了 一 个 高 层次 的 容错 能 力 ， 尤 其 是 确保 了 如 果 map 和 reduce 
的 操作 对 于 其 输入 是 确定 性 的 〈 即 对 于 一 个 给 定 的 输入 集合 ， 总 能 产生 相同 的 输出 结果 ) ， 那 么 即使 
遇 到 故障 情况 ， 整 个 MapReduce 的 任务 也 会 产生 与 程序 的 顺序 执行 相同 的 输出 结果 。 
为 了 处 理 故 障 ， 主 工作 机 定期 地 发 送 ping 消息 来 检查 工作 机 是 否 正常 运行 ， 并 执行 它 应 该 完成 的 
操作 。 如 果 没 有 收 到 响应 ， 主 工作 机 即 认为 该 工作 机 已 出 故障 ， 主 工作 机 会 记录 下 来 。 接 下 来 的 行动 
依 执行 的 是 map 还 是 reduce 任务 而 定 : 
© 如 果 该 工作 机 在 执行 一 个 map 任务 ,那么 不 管 相关 的 任务 是 在 处 理 中 还 是 已 完成 ， 这 个 任务 都 
被 标记 为 空闲 ， 表 明 它 将 被 重新 分 配 。 请 注意 ，map 任务 的 结果 是 被 存储 在 本 地 磁盘 上 的 ， 因 
此 如 果 该 工作 机 出 故障 ， 那 么 结果 将 无 法 访问 。 

o 如 果 工 作 机 在 执行 一 个 reduce 任务 ， 只 有 这 个 任务 仍 在 处 理 中 ， 才 被 标记 为 空闲 ; 如 果 该 任务 
EZR, 那么 结果 是 可 访问 的 ， 因 为 结果 已 经 被 写 人 到 全 局 (和 复制 ) 的 文件 系统 中 。 

请 注意 ， 为 了 实现 所 需 的 语义 ,将 从 map 和 reduce 任务 中 得 到 的 输出 自动 记录 (8) 下 来 是 非常 
重要 的 ， 这 一 性 质 是 由 MapReduce 库 和 底层 文件 系统 共同 保证 的 。 其 具体 的 实现 细节 可 以 在 Dean 和 
Ghemawat[ 2008] 中 找到 。 

MapReduce 还 实现 了 一 个 策略 用 于 解决 工作 机 花 很 长 时 间 去 完成 任务 的 问题 (这 样 的 工作 机 被 称 
为 落后 的 工作 机 (straggler) ) 。 据 Google 调查 表明 ， 一 些 工作 机 运行 缓慢 的 现象 相当 普遍 ， 例 如 ， 可 
能 由 于 在 数据 传输 中 的 大 量 出 错 校 正 步 又 导致 磁盘 性 能 很 差 。 为 了 解决 这 一 问题 ， 当 程序 运行 即将 结 
束 时 ， 主 工作 机 启动 备份 工作 机 来 完成 所 有 仍 在 处 理 中 的 任务 。 无 论 是 原 工作 机 还 是 新 工作 机 完成 了 
相关 的 任务 ， 该 任务 都 会 被 标记 为 已 完成 。 这 样 做 对 完成 时 间 有 很 大 的 影响 ， 又 巧妙 地 规避 了 商用 机 
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可 能 会 失效 的 问题 。 
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如 上 所 述 ，MapReduce 被 设计 用 于 和 Bigtable 一 起 合作 处 理 大 量 的 结构 化 数据 。 实 际 上 ， 在 Google 


中 ， 很 多 应 用 都 混合 使 用 了 多 种 基础 设施 成 分 。 在 下 面 的 方 框 中 ， 我 们 描述 了 MapReduce, Bigtable 和 
GFS 为 Google Maps 和 Google Earth 应 用 提供 的 支持 。 








对 Google Maps 和 Google Earth 的 支持 

Google Maps[ maps. google. com] 和 Google Earth earth. google. com] 的 客户 程序 依赖 于 客户 从 
Google 服务 器 上 下 载 下 来 的 大 量 图 片 (image tile) 的 可 用 性 。 图 片 是 以 像素 值 为 元 素 的 二 维 数组 
(HHA), 包含 了 地 理 特 征 的 泻 染 图 像 ， 图 片 被 组 织 成 多 层 来 保存 不 同类 型 的 地 理 特 征 。 对 一 个 
展示 街道 地 图 的 图 片 ， 它 的 基层 是 从 最 新 的 地 理 数据 库 构 建 得 来 的 ， 另 一 层 是 根据 可 缩放 的 卫星 和 
航空 图 像 构建 的 ， 展 示 了 地 球 表面 的 物理 特征 。 其 他 的 部 分 透明 的 层 用 来 展示 公共 运输 网 络 和 其 他 
基础 设施 的 特征 、 等 高 线 甚 至 实时 的 交通 流量 。 每 层 的 图 片 集 材 盖 了 整个 地 球 的 陆地 表面 ， 而 且 可 
复制 多 份 以 展示 不 同 缩放 程度 的 细节 ， 最 多 可 缩放 20 倍 。 

大 部 分 的 基础 地 理 数据 改变 比较 缓慢 ， 但 是 为 了 表示 新 建 或 改建 的 道路 以 及 其 他 物理 基础 设施 
的 数据 一 直 是 可 用 的 ， 图 片 集 的 重建 需要 一 个 运行 在 Googe 服务 器 上 的 高 性 能 的 分 布 式 应 用 程序 ， 
将 地 理 向 量 、 点 和 未 经 处 理 的 图 像 数据 转换 成 图 片 。 这 一 任务 的 实现 需要 使 用 Bigtable 来 存储 底层 
数据 。 基 础 地 理 数 据 是 以 XML 格式 存储 的 ， 称 为 KML( Keyhole Markup Language, Keyhole 是 第 一 个 
开发 此 类 软件 的 公司 的 名 称 ，2004 年 被 Google 收购 ) 。 未 经 处 理 的 向 量 和 图 像 数 据 是 从 多 种 渠道 获 
取 到 的 (包括 卫星 和 航空 图 像 )， 具 有 多 种 格式 和 分 辩 率 ， 它 们 和 KML 元 数据 一 起 被 存储 在 一 个 
单独 的 表 中 。 在 该 表 中 ， 行 代表 特定 的 地 理 位 置 ， 列 代表 不 同 的 地 理 特征 和 未 经 处 理 的 图 像 (以 
列 族 的 形式 组 织 ) 。 行 的 命名 结构 保证 了 相近 的 物理 特征 被 存储 在 相 邻 的 行 中 ， 这 样 用 于 生成 每 个 
图 片 的 数据 会 存储 在 一 个 或 几 个 数据 片 中 。 这 张 表 大 小 约 为 70TB， 有 90 亿 个 单元 。 由 于 每 个 地 理 
位 置 上 的 特征 或 图 像 通 常 并 不 是 很 多 ， 这 张 表 是 相对 稀 玻 的 。 

由 于 可 用 的 地 理 数 据 和 图 像 越 来 越 多 ， 数 据 被 不 断 地 加 入 到 表 中 。 在 一 些 选 定 的 时 间 点 上 ， 和 暂 
停 对 数据 的 添加 ， 并 开始 更 新 图 片 。 一 些 并 发 的 Map 进程 (如 在 MapReduce 相关 内 容 中 介绍 的 ) 
处 理 原始 数据 ， 为 这 些 数据 的 平面 展示 进行 数据 转换 、 修 正 空间 坐标 ， 并 将 平面 展示 与 图 像 合 并 起 
来 。 这 一 Map 阶段 生成 一 个 表 结构 ， 该 表 结 构 中 包含 了 本 地 已 排序 的 地 理 数据 ， 这 些 数据 会 被 传 
递 给 一 些 并 发 的 Reduce 进 程 ， 而 Reduce 进程 会 将 图 片 表示 为 光 机 图像。 整个 MapReduce 任务 每 秒 
钟 大 约 处 理 1MB 的 原始 数据 ， 需 要 约 8 个 小 时 来 生成 完整 的 图 片 集 [ Chang et al. 2008], 

结果 图 片 集 被 存储 在 GFS 中 ， 与 其 相关 的 索引 存储 在 Bigtable 的 另 一 张 表 中 。 这 张 表 会 在 几 个 
数据 中 心 集群 中 的 上 百 台 数据 片 服务 器 上 被 复制 ， 这 样 使 其 为 大 量 并 发 访问 Google Maps 和 Google 
Earth 的 用 户 提供 服务 。 该 索引 的 大 小 约 为 500GB， 重 要 的 部 分 会 存储 在 主 存 中 ， 这 样 可 以 降低 读 


| 操作 带 来 的 延迟 。 








21.6.2 Sawzall 


Sawzall[ Pike et al. 2005] 是 一 种 解释 型 编程 语言 ， 可 以 在 高 分 布 式 环境 下 (如 Google 的 物理 基础 


设施 提供 的 ) ， 对 大 规模 数据 集 进 行 并 行 的 数据 分 析 。 虽 然 MapReduce 支持 高 度 并 行 分 布 式 程序 的 构 
建 ， 但 是 Sawzall 的 目标 在 于 简化 这 些 程序 的 构建 过 程 。 这 一 语言 是 在 实践 中 产生 的 ，Sawzall 程序 通常 


比 同类 MapReduce 程序 小 10 ~20 倍 [Pike et al. 2005], Sawzall 语言 的 实现 大 多 建立 在 已 存在 的 Google 


基础 设施 之 上 ， 其 利用 MapReduce 来 创建 和 管理 底层 的 并 行 运行 ， 利 用 GFS 来 存储 与 计算 相关 的 数 
据 ， 并 利用 协议 缓冲 区 为 存储 记录 提供 一 个 通用 的 数据 格式 。 


像 MapReduce —##, Sawzall 假定 并 行 计 算 需 要 遵循 一 个 固定 的 模式 ， 我 们 在 图 21-20 对 此 进行 了 


总 结 。Sawzall 还 假定 一 项 计算 的 输入 由 原始 数据 组 成 ， 而 原始 数据 包括 一 些 待 处 理 的 记录 。 通 过 运行 


过 滤器 (filter) 来 进行 计算 ， 这 些 过 滤器 并 行 地 处 理 记 录 ， 生 成 要 发 送 的 结果 。 聚 合 器 (aggregator) 
使 用 这 些 发 送 来 的 数据 来 生成 总 的 计算 结果 。 
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图 21-20 一 个 Sawzall 程序 的 总 体 执 行 

Sawzall 还 对 过 滤器 和 聚合 器 的 运行 做 出 了 两 点 假设 

。 过 滤器 和 聚合 器 的 运行 在 所 有 的 记录 之 间 应 为 可 交换 的 ， 即 无 论 过 滤器 以 何 种 顺序 和 运行， 运行 
结果 都 是 相同 的 。 

。 聚合 器 的 操作 应 为 可 结合 的 ， 即 在 运行 过 程 中 ，( 隐 含 的 ) 括号 不 是 问题 ， 其 允许 运行 过 程 中 
具有 更 大 的 自由 度 。 

正如 从 查看 MapReduce 所 期 望 的 ， 完 成 过 滤 操 作 与 数据 发 送 的 Sawzall 程序 在 MapReduce 的 map 阶 


段 运 行 ， 而 聚合 器 在 相应 的 reduce 阶段 运行 。Sawzall 语言 提供 了 一 些 预 先 设 定好 的 聚合 器 ， 包 括 执行 
所 有 发 送 值 求 和 运算 (sum) 和 创建 所 有 发 送 值 集合 (collection) MRA. HRA aS it EA 
相关 ， 例 如 ， 构 建 累计 概率 分 布 〈quantile) ， 或 者 预测 最 常见 的 值 (top) 。 程 序 员 还 可 以 开发 新 的 聚 
合 器 ， 虽然 这 种 情况 非常 少见 。 


我 们 用 Pike 等 [2005] 中 的 一 个 简单 的 例子 来 说 明 Sawzall 的 使 用 以 及 上 述 特征 : 
count: table sum of int; 

total: table sum of float; 

x: float = input; 

emit count <- I; 

emit total <- x; 


这 个 程序 将 float 型 的 简单 记录 作为 输入 (通过 局 部 变量 x 来 访问 这 些 值 )。 程 序 还 通过 引入 关键 


词 table 来 定义 两 个 聚合 器 ， 并 用 关键 词 sum 来 说 明 它们 是 求 和 聚合 器 。 (这 个 关键 词 也 可 以 是 collec- 
tion, quantile 或 top 中 的 一 个 。) emit 的 调用 产生 了 一 系列 值 ， 这 些 值 经 聚合 器 处 理 生成 期 望 的 结果 
(在 这 个 例子 中 ， 是 输入 流 中 所 有 值 的 计数 以 及 这 些 值 的 求 和 ) 。 


Sawzall 语言 的 完整 描述 以 及 更 多 的 例子 详 见 Pike 等 。 


21.6.3 关键 设计 选择 总 结 


图 21-21 中 总 结 了 MapReduce 和 Sawzall 的 总 体 设 计 选 择 。 











成 分 设计 选择 理 由 权 E | 
MapReduce ”使 用 通用 框架 向 程序 员 隐藏 并 行 和 分 布 细节 ; ”在 该 框架 内 的 设计 决策 可 能 不 | 
改进 了 所 有 MapReduce 应 用 所 采用 ”适用 于 所 有 分 布 式 计算 的 工作 

的 基础 设施 方式 
通过 map 和 reduce 两 种 非常 简单 的 编程 模型 使 得 可 以 对 同样 ， 不 适用 于 所 有 的 问题 

操作 进行 系统 编程 复杂 的 分 布 式 计算 进行 快速 开发 领域 


支持 容错 型 分 布 式 计算 程序 员 无 需 担心 对 错误 的 处 理 ”和 错误 恢复 策略 相关 的 开销 
(对 运行 在 一 个 易 出 错 的 物理 基础 设 





施 上 的 长 期 任务 来 说 尤为 重要 ) 
Sawzall 为 分 布 式 计算 提供 一 种 WR, 通过 向 程序 员 隐 藏 复杂 性 假定 程序 可 以 以 其 支持 的 方式 
特定 的 编程 语言 (甚至 比 MapReduce 做 得 更 多 ) 来 〈 用 过 滤器 和 聚合 器 ) 编写 
支持 复杂 分 布 式 计算 的 快速 开发 





图 21-21 与 分 布 式 计算 相关 的 设计 选择 汇总 


575 


576 + 第 21 章 分 布 式 系统 设计 : Google 实例 研究 


以 上 两 种 方法 带 来 的 好 处 来 自 鼓励 分 布 式 计 算 的 一 种 特定 风格 ， 并 提供 了 通用 的 基础 设施 ， 以 支 
持 采 用 这 种 风格 开发 的 系统 的 有 效 实现 。 这 种 方法 被 证 明 在 Google 应 用 和 服务 中 非常 有 效 ， 包 括 对 核 
心 搜 索 功 能 的 支持 ， 以 及 对 如 Google Earth 等 云 应 用 之 类 的 高 要 求 领域 的 支持 。 

这 项 工作 引发 了 数据 管理 界 有 趣 的 争论 ， 如 这 种 抽象 是 否 适 用 于 各 类 应 用 程序 。 要 更 深入 地 了 解 
这 方面 的 探讨 ， 可 以 参见 Dean 和 Ghemawat[ 2010] 和 Stonebraker 等 [2010] 在 Communications of the 
ACM 上 发 表 的 论文 。 


21.7 小 结 


这 一 章 通过 讨论 一 个 大 型 互联 网 企业 如 何 实现 分 布 式 系统 的 设计 ， 以 支持 一 系列 现实 世界 中 的 高 
要 求 应 用 这 一 关键 问题 来 结束 本 书 。 这 是 一 个 充满 挑战 性 的 课题 ， 它 需要 对 分 布 式 系统 开发 各 个 层面 
上 的 、 系 统 开 发 人 员 可 用 的 技术 选择 有 一 个 全 面 的 理解 ， 包 括 通信 范 型 、 可 用 服务 与 相关 的 分 布 式 算 
法 。 与 设计 选择 相关 的 不 可 避免 的 权衡 需要 系统 开发 者 对 应 用 领域 有 一 个 全 面 的 了 解 。 

这 一 章 中 采用 的 方法 是 通过 一 个 实际 的 实例 研究 ， 即 通过 介绍 Google 基础 设施 的 底层 设计 ， 和 
Google 用 以 支持 其 搜索 引擎 、 一 系列 应 用 及 服务 的 平台 和 中 间 件 ， 来 突出 分 布 式 系统 设计 的 艺术 。 这 
是 一 个 引 人 注 目的 实例 研究 ， 它 展示 了 现 已 构建 的 最 复杂 的 大 规模 分 布 式 系统 ， 而 且 该 分 布 式 系统 很 
好 地 满足 了 其 设计 需求 。 

这 个 实例 研究 探究 了 系统 的 总 的 体系 结构 ， 并 深入 研究 了 它 的 关键 的 底层 服务 ， 尤 其 是 协议 缓冲 
区 、 发 布 -订阅 服务 、GFS、Chubby、Bigtable、MapReduce 和 Sawzall， 这 些 服 务 协同 工作 以 支持 复杂 
的 分 布 式 应 用 和 服务 ,包括 核心 搜索 引 敬 和 Google Earth 等 。 从 这 一 实例 研究 中 ， 我 们 可 以 看 出 真正 理 
解 应 用 领域 的 重要 性 ， 从 中 得 到 了 一 系列 核心 的 底层 设计 原则 并 保证 它们 在 应 用 中 的 一 致 性 。 在 
Google 的 实例 中 ， 它 表明 了 对 简洁 性 、 低 开销 的 方法 的 强烈 主张 ， 并 强调 测试 、 日 志和 追踪 。 最 终结 
果 是 得 到 了 一 个 体系 结构 ， 该 体系 结构 在 支持 新 的 应 用 和 服务 方面 具有 高 可 伸缩 性 、 高 可 靠 性 、 高 性 
能 以 及 开放 性 。 

Google 基础 设施 是 近 些 年 出 现 的 云 计 算 领 域 的 中 间 件 方案 之 一 (虽然 只 在 Google 内 部 可 用 ) 。 其 
他 的 方案 包括 亚马逊 Web 服务 (Amazon Web Services, AWS) [ aws. amazon. com |]， 微 软 Azure 
[ www. microsoft.com IV ] 和 开源 的 解决 方案 如 Hadoop (其 中 包括 了 MapReduce 的 一 种 实现 ) 
[ hadoop. apache. org], Eucalyptus[ open. eucalyptus. com]. Google App Engine (在 Google 外 部 可 用 ， 提 供 
了 使 用 Google 基础 设施 部 分 功能 的 一 个 窗口 ) [ code. google. com W ] 以 及 Sector/Sphere 
[ sector. sourceforge. net] 。OpenStreetMap[ www. openstreetmap. org] 已 开发 完成 ， 它 是 类 似 于 Google Maps 
的 一 个 开放 方案 ， 它 和 Google Maps 的 运作 机 制 类 似 ， 使 用 的 是 自愿 开发 的 软件 和 非 商 业 化 的 服务 器 。 
关于 这 些 实现 的 详细 信息 大 都 可 以 查 到 ， 读 者 可 以 选取 其 中 一 些 进行 研究 ， 将 其 设计 决策 和 上 面 实例 
研究 中 所 提 到 的 方面 进行 比较 分 析 。 

除了 上 文 提 到 的 Google 实例 ， 关 于 分 布 式 系统 设计 方面 已 出 版 的 实例 研究 很 少 ， 考 虑 到 分 布 式 系 
统 的 整体 体系 结构 及 相关 设计 原则 具有 潜在 的 教学 价值 ， 这 确实 是 一 大 憾事 。 因 此 ， 这 一 章 的 主要 贡 
献 在 于 首次 提供 了 一 个 深入 的 分 布 式 系统 实例 研究 ， 并 说 明了 设计 和 实现 一 个 完整 的 分 布 式 系 统 解 决 
方案 的 复杂 性 。 


练习 
21.1 Google 现在 是 一 个 何 种 程度 的 云 服 务 供应 商 ? 参考 第 | 章 的 定义 或 21.2 节 中 的 重 述 。 

(第 1 章 , 第 921 页 ) 
21.2 Google 基础 设施 的 核心 需求 是 可 伸缩 性 、 可 靠 性、 性 能 和 开放 性 。 请 给 出 这 些 需求 可 能 存在 冲突 的 

三 个 例子 ， 并 讨论 Google 是 怎样 解决 这 些 潜在 的 冲突 的 。 (第 924 页 ) 

21.3 第 4 章 给 出 了 一 个 用 XML 表示 的 Person 结构 的 规约 〈 见 图 4-12) ， 用 协议 缓冲 区 重 写 该 规约 。 

(第 4 章 , 第 929 页 ) 
21.4 讨论 由 协议 缓冲 区 支持 的 RPC 工作 方式 增强 的 可 扩展 性 的 程度 (尤其 是 一 个 参数 和 一 个 返回 结果 的 


21.5 


21.6 


21.7 


21.8 


21.9 
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设计 决策 ) 。 (第 931 页 ) 
请 解释 Google 基础 设施 支持 三 种 独立 的 数据 存储 设施 的 原因 。 为 什么 Google 不 采用 一 种 商用 的 分 布 
式 数据 库 ， 而 是 采用 三 种 独立 的 服务 ? (第 935 页 ) 
GFS 和 Bigtable 做 出 了 相同 的 核心 设计 决策 一 一 单 主 服务 器 。 在 这 两 种 情况 下 ， 单 主 服务 器 故障 分 别 
会 有 什么 影响 ? (第 937 ~938 页 , 第 950 ~ 952 W) 


在 21.5.2 节 中 ,我 们 比较 了 Chubby 和 NFS 中 的 缓存 一 致 性 方法 ， 并 得 出 结论 : 在 不 同 结 点 上 查看 
不 同 版 本 的 文件 方面 ，NFS 提供 的 语义 较 弱 。 请 对 Chubby 和 AFS 采用 的 缓存 一 致 性 方法 进行 类 似 的 
比较 。 (12.1.3 节 , 第 943 ~944 页 》 
如 21. 5.2 节 中 描述 的 ，Paxos 的 实现 依赖 于 不 断 增长 的 、 全 局 唯一 的 序列 号 的 生成 。 这 一 节 还 介绍 
了 一 种 可 能 的 实现 。 给 出 实现 这 类 序列 号 的 另 一 种 方法 。 (第 945 ~946 页 ) 
图 21-18 列 出 了 MapReduce 的 一 些 可 能 的 应 用 。 介 绍 另 一 种 可 能 的 应 用 ， 并 概述 其 将 如 何在 MapRe- 
duce 中 实现 ， 特 别 是 要 给 出 其 中 map 和 reduce 函数 的 实现 概要 。 (第 958 页 ) 


21.10 ”给 出 一 个 很 难 在 MapReduce 中 实现 的 分 布 式 计算 的 例子 ， 并 给 出 充分 的 理由 加 以 说 明 。 


(第 958 页 ) 
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open shortest path first (OSPF， 开 放 最 短路 径 优先 算法 }，113 
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peer-to-peer (对 等 ) 47~48, 60, 424 ~459 
and copyright ownership 《版 权 拥 有 者 ) 429 
BitTorrent, 906 


630 - R 引 


CoolStreaming, 910 
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TCP (传输 控制 协议 ) 95, 122~124 
TCP/IP, 106 
transport (传输 ) , 92 
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UDP (用户 数 据 报 协 议 ) 95, 107, 122 
protocol buffer (协议 缓冲 区 ) 927, 929 ~932 
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privileged (特权 的 ) ，322 
virtualization (虚拟 化 ) 322 
sensor (传感器 ) ，823，844 ~857 
error mode (错误 模式 ) ，845 
fusion (BRA) , 846° 
location (W€), 852-857 
network, wireless ( 网络， 无 线 ) 848 ~852 
sequencer 〈 顺序 者 ) 654 
sequential consistency (顺序 一 致 性 ) 777 
serial equivalence ( 串 行 等 价 ) ，681，685 
serialization (序列 化 }，162 
protocol buffers (协议 缓冲 区 ) ，929 
servant (伺服 器 ) 211, 212, 221, 349, 354, 394 
servant classes 《伺服 器 炎 ) 211, 349, 354 
server 《服务 器 ) 15 
multi-threaded (多 线程 的 ) ，292 
multi-threading architecture ( 多 线程 体系 结构 ) 293 
personal (个 人 的 ) ，825 
throughput (FHE), 292 
server port 《服务 器 端口 ) 150 
server stub procedure ( 服务 器 存根 过 程 ) 200 
serverless file system (xFS， 无 服务 器 文件 系统 ) 561 
service (AR4), 15 
fault-tolerant ( 容错 ) 767, 775 ~782 
highly available (高 可 用 的 ) , 782 ~801 
service discovery 11 (服务 发 现 ) #JL discovery service 
service interface (服务 接口 ) 196, 395 
service-oriented architecture (SOA， 面 向 服务 的 体系 结构 ) 413 ~414 
mashup, 414 
servlet (servlet 程序 ) , 298 
servlet container (servlet 容器 ) , 396 
session bean (会话 bean) 
Enterprise JavaBeans (EJB, 企业 JavaBeans) 366 
Session Initiation Protocol 〈 会话 初 始 化 协议 ) 885 
session key 〔〈 会 话 密 钥 ) 475 
session layer 《会 话 层 ) 95 
SETI @ home project (SETI @ home MH), 427 
SHA secure hash algorithm (SHA 安全 和 散 列 算 法 ) ，499，501 
SHA-1 secure hash algorithm (SHA- 1 安全 散 列 算法 ) 434, 
436, 450, 457 
shadow versions 〈 影子 版 本 ) ，756 ~757 
shared whiteboard (共享 的 白板 ) 
CORBA IDL interface (CORBA IDL 接口 ) ，343 
dynamic invocation 〈 动态 调用 ) 212 
implementation in CORBA (CORBA 中 的 实现 ) ，363 
implemented in Java RMI (Java RMI 中 的 实现 ) ，217 ~224 
implemented in Web services (Web 服务 中 的 实现 ) 394 
Siena ，253 
signature of method 《方法 基调 ) 205 
Simple Public- key Infrastructure (SPKI， 简 单 公 钥 基础 设施 )，300 
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SIP, ÆJ Session Initiation Protocol 
skeleton (#32), 211 
dynamic (动态 ) 212 
dynamic in CORBA (CORBA 中 的 动态 ) ，351 
in CORBA (CORBA 中 的 ) ，350 
in Web services 《在 Web 服务 中 ) 398 
not needed with generic dispatcher (不 需要 通用 调度 器 ) 224 
Skype, 177 
smart dust, 42, mote 
smart phones 《智能 电话 ) 818, 824 
smart space (智能 空间 ) , 822 
SMTP (简单 邮件 传输 协议 ) 95, 106 
SOAP (SOAP HPX), 384, 387 ~393 
addressing and routing 〈 寻 址 和 路 由 ) 391 
and firewalls (和 防火 墙 ) 392 
envelope (信封 ) 389 
header 〈 头 部 ) 390 
Java implementation (Java 实现 ) ，397 
message transport 〔 消息 传输 ) 390 
message (消息 ) 388 
reliable communication ( 可靠 通 信 ) 392 
specification (规约 ) ，388 
use of HTTP (HTTP 的 使 用 ) ，390 
with Java (用 Java 的 ) ，394 ~398 
socket 〈 套 接 字 ) 149 
connect (Æ), 156 
soft state ( 软 状 态 ) 843 
software architecture (软件 体系 结构 ) ，360 
software as a service 《软件 作为 服务 ) 319, 414, 921 
software interrupt 〈 软 中 斯 ) , 295 
Solaris (Solaris 系统 ) 
lightweight process 〈 轻 量 级 进程 ) 301 
space uncoupling (Z ERRA), 44, 230 
in tuple spaces (在 元 组 空间 中 的 ) 267 
spatio-temporal query (时 空 查询 ) ，857 
Speakeasy，842 . 
speaks for relation (in security) (关系 证 明 (在 安全 性 中 ))， 42 
SPIN, 317 
SPKI， 参 见 Simple Public- key Infrastructure 
split device driver, in Xen (分 离 的 没 备 驱动 器 , 在 Xen 中 ), 327 
spontaneous association ( 自发 关联 ) 826 
spontaneous interoperation ( HATH), 11, 825 ~826 
spontaneous networking ( 自发 网 络 ) ，821 
discovery service (发 现 服 务 ) 584 
Spring naming service (Spring 名 字 服 务 ) ，573 
Spritely NFS, 557 
Squirrel Web cache (Squirrel Web 缓存 ) ，449 ~451 
SSL， 参 见 Transport Layer Security 
starvation 《人 饥饿 ) ，634，711 
state machine 《状态 机 ) ，268 ，769 


state transfer ( 状态 转换 ) ，774 
stateless server (无 状态 服务 器 ) 533 
stream cipher ( 流 密 码 ) 486 ~487 
strict executions 《严格 执行 ) 690 
structured peer-to-peer (结构 化 对 等 ) 445 
structrue-less CBR 〈 无 结构 CBR), 253 
stub procedure (存根 过 程 ) 200 
in CORBA (在 CORBA #), 350 
subject- basd publish- subscribe 《基于 主题 的 发 布 -订阅 ), 246 
subscriber, in publish- subscribe (订阅 者 ， 发 布 -订阅 中 的 ) 2 
subscription, in publish- subscribe 《订阅 ， 发 布 -订阅 中 的 )，2483 
subsystem (FH), 316 
Sun Network File System (NFS, Sun 网 络 文件 系统 ) ， 参 见 
Network File System 
Sun RPC (Sun 远程 过 程 调用 ) 201 ~204, 536 
external data representation 《外 部 数据 表示 ) , 203 
interface definition language 《接口 定义 语言 ) 201 
portmapper 《端口 映射 器 ) ，203 
rpegen, 201 
supervisor ( 管理 器 ) 284 
supervisor mode 《管理 模式 ) 285 
Switched Ethemet (交换 式 以 太 网 ) ，135 
symmetric cryptography 《对 称 密码 学 ) 484 
symmetric processing architecture (对 称 处理 体 系 结构 ) 283 
synchronization of clocks 〈 时 钟 同步 ) ，599 ~ 606 
Berkeley algorithm (Berkeley 算法 ) ，603 
Cristian’ s algorithm ( Cristian 算法 ) 601 ~ 603 
external 《外 部 的 ) , 599 
in a synchronous system (在 同步 系统 中 ) 601 
internal (内 部 的 ) 599 
Network Time Protocol ( 网络 时 间 协 议 ) ，603 ~ 606 
synchronization, of server operations (同步 ， 服 务 器 操作 的 ) ，678 
synchronous communication (同步 通信 ) ，148 
synchronous distributed system (同步 分 布 式 系 统 )，64， 
235, 601, 625, 630, 633, 659, 663 
system call trap (系统 调用 陷阱 ) 285 
system virtualization (系统 虚拟 化 ) 318 ~320 
system of systems 《系统 的 系统 ) 40 
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tag (RÆ), #2 automatic identification 
Tapestry routing overlay (Tapestry BR BERL), 425, 435, 
444 ~445 
TCP (〈 传 输 控 制 协议 ) 95, 122 ~124, 153 ~ 158 
and request-reply protocols (和 和 请求- 应 答 协议 ) 191, 308 
API，154 
failure model (故障 模型 ) 155 
Java API, 155 ~ 158 
TCP/IP, ÆJ protocol, TCP/IP 
TEA (Tiny Encryption Algorithm, m EAE), 488 ~ 


489, 501 
TERA, 253 
termination 《终止 性 ) 


of consensus and related problems 《在 共识 和 相关 问题 中 ), 660 ~62 


termination detection (终止 检测 )，611 
thin client (W), 56 
thread (线程 ) 42, 148, 286, 292 ~303 
blocking receive (ASERUFEWL) , 148 
C, 297 
in client (在 客户 端的 ) 294 
comparison with process (与 进程 的 比较 ) ，294 
creation cost (创建 花费 )，295 
implementation (实现 ) ，300 ~ 303 
in server (在 服务 器 端的 ) ，292 
Java, 297 ~ 300 
kernel-level ( 内核 级 ) ，300 
on multiprocessor ( 多 处 理 器 上 的 )，294 


multi-threading architecture ( 多 线程 体系 结构 ) 293 


POSIX, 297 
programming (编程 ) 297 ~300 
scheduling (E), 299 
switching (切换 ) ，296 
synchronization ( 同步 ) ，298 
worker (工作 线程 ) 293 
three-tiered architecture 〈 三 层 体系 结构 ) 53, 362 
throw exception 〈 抛 出 异常 ) 206 
TIB Rendezvouz，253 
Ticket Granting Service (TCS， 票 证 授予 服务 ) 506 
ticket, of authentication 《票证 ， 认 证 的 ) 474 
tiering (层次 化 ) 52 
n-tiered architecture (n 层 体系 结构 ) 53 
three-tiered architecture 〔〈 三 层 体 系 结构 ) 53, 362 
two-tiered architecture ( 两 层 体系 结构 ) 53 


Tiger video file server (Tiger 视频 文件 服务 器 ) ，901 ~906 


time (时 间 )，595 ~ 610 
logical (逻辑 的 ) 607 ~610 
time uncoupling (HHEH), 44, 230 
in tuple spaces 《元 组 空间 中 的 ) 267 
time-based data streams (基于 时 间 的 数据 流 )，886 
time-critical data (实时 数据 ) 25 
timeouts (超时 ) 68 
timestamp ( tla] BR) 
Lamport, 608 
vector (HÆ), 609 
timestamp ordering (RERE), 711 ~ 718 
in distributed transaction 《在 分 布 式 事务 中 ) 741 
multiversion (多 版 本 ) 715 ~718 
operation conflicts (操作 冲突 )，712 
read rule 〈 读 规则 ) ，714 
write rule〈 写 规则 ) ，713 
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timing failure 《时序 故障 ) 70 
tit-for-tat in BitTorrent, BitTorrent (BitTorrent 中 的 一 报 还 一 报 ) 
tit-for-tat (一 报 还 一 报 } ，907 
Token Bus network ( 令 牌 总 线 网 ) 129 
Token Ring network ( 令 牌 环 网 ) 129 
tolerating failure ( 容错) 22 
topic-based publish-subscribe (基于 主题 的 发 布 -订阅 ) ，246 
torrent, in BitTorrent (激流 ， 在 BitTorrent 中 ) ，907 
TOTA (Tuples On the Air) ，840 
total ordering (全 排序 ) 236, 597, 609 
of multicast delivery (组 播 传递 的 ) 651 
of request handling 〈 请 求 处 理 的 ) ，770 
totally ordered multicast (全 排序 组 播 ) ，174 
tracker, in BitTorrent 《跟踪 器 ， 在 BitTorrent 中 )，906 
tracking (BREZ), 852 
and privacy (和 私密 性 ) , 856, 864 
traffic analysis (流量 分 析 ) , 865 
traffic shaping (for multimedia data) (HEHE (对 多 媒体 
数据 ) ) ，893 


transaction (#4), 679 ~ 692 


abort (WA), 682 

ACID properties (ACID 属性 ) 681, 720 

closeTransaction (closeTransaction 类 ) , 682 

failure model (故障 模型 ) ，679 

in JavaSpaces (JavaSpaces 中 的 ) 272 

in message queues (消息 队列 中 的 ) 255 

in the Java Messaging Service (JMS， 在 Java 消息 服务 中 
的 ) ，259 

in Web services (在 Web 服务 中 ) 411 

openTransaction ( openTransaction 类 ) , 682 

recovery (恢复 ) ， 参 见 recovery 

serial equivalence ( 串 行 等 价 ) ，685 

with replicated data (复制 数据 的 ) 802 ~ 814 


transaction status (事务 状态 ) 752, 757 
transcoding 【《 转 码 ) 867 
transparency (透明 性 )，23 ~25, 204 


access (访问) 23, 527, 546 
concurrency 《并 发 ) 23 
failure (故障 )，24 
in remote method invocation (在 远程 方法 调用 中 )，199 
location (ME), 23, 527, 546 
mobility (移动 性 ) 24, 527 
network ( 网络) 24 
performance (YERE), 24, 527 
replication (复制 ) 24, 767 
scaling (448), 24, 527 
transport address 〈 传 输 地 址 ) 96 
transport layer 〈 传输 层 ) 95 , 
Transport Layer Security (TLS, HARRA), 107, 511 ~515 
transport protocol (传输 协议 ) , 92 
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trap-door function 〈 陷 门 函数 ) ，484 
triple- DES encryption algorithm (三 重 DES 加 密 算 法 ) 501 
trust (信任 )，826，857，863 
trusted computing base (可 信赖 计 算 基 ) 472, 826 
trusted third party (可 信任 第 三 方 ) 857, 859, 860 
tunnelling (隧道 法 ) ，105 
tuple space (元 组 空间 ),45，265 ~271 
compared to event system 《与 事件 系统 比较 ) 679 
distributed sharing (分 布 式 共享 )，267 
free naming ( 自由 命名 ) ，267 
generative communication 《生成 通信 ) ，45 ，265 
implementation (实现 ) 268, 268 ~271 
in volatile system (在 易 变 系统 中 ) 838 ~ 840 
L?imbo, 840 
Linda, 265 
Peer-to-peer implementation (对 等 实现 ) ，271 
programming model (编程 模型 ) ，265 ~ 267 
replication 《复制 ) 268 ~270 
space uncoupling (空间 解 看 ) » 267 
time uncoupling (时 间 解 耦 ) 267 
TOTA，840 
two- phase commit protocol (两 阶段 提交 协议 ) ，732 ~735 
nested transaction (REFS), 736 ~740 
flat commit (平面 提交 ) , 739 
hierarchic commit (层次 提交 ) , 738 
performance (性 能 ) 735 . 
recovery (PRI), 758 ~761 
timeout actions (超时 动作 ) , 734 
two-tiered architecture 〈 两 层 体系 结构 ) 53 
type- based publish- subscribe (基于 类 型 的 发 布 -订阅 ) ，247 
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ubiquitous computing (无 处 不 在 计算 ) 10~11, 818 ~879 
origin of (起 源 ) 819 
UDDI， 参 见 universal directory and discovery service 
UDP (用 户 数据 报 协议 ) ，95，107，122，150 ~ 153 
failure model (故障 模型 ) 151 
for request-reply communication 《请 求 -应 答 通信 ) ，308 
Java API, 151 ~153 
use of (使 用 ) 151 
UFID， 参 见 unique file identifier 
Ultra Large Scale distributed systems (ULS ， 超 大 型 分 布 式 系 
统 )，40 
Ultra Wide Band (UWB， 超 宽带 ) ，855 
Ultra- Large Scale distributed systems (ULS， 超 大 型 分 布 式 
系统 ) ，924 
ultrapeer, in peer-to-peer computing (超级 结 点 ， 在 对 等 计 
算 中 的 ) 447 
UMTS, 88 
unchoking, in BitTorrent (不 阻塞 ， 在 BitTorrent 中 的 ) ，907 


unicast 《 单 播 ) 233 
uniform property (统一 的 性 质 ) , 650 
Uniform Resource Identifier (统一 资源 标识 符 ) ，568 
compared with remote object reference (与 远程 对 象 引用 比 
较 ) 393 
in Web services (在 Web 服务 中 ) ，382 
Uniform Resource Locator (统一 资源 定位 器 ) , 28 ~30, 568 
Uniform Resource Name (统一 资源 名 称 ) 569 
unique file identifier (UFID， 文 件 唯 一 标识 答 ) ，530，551 
universal directory and discovery service (UDDI， 统 一 目录 和 
发 现 服务 ) 404 ~406 
Universal Plug and Play 《UPnP ， 通 用 即 搬 即 用 ) ，829 
Universal Transfer Format (通用 传输 格式 ) 163 
UNIX 
i-node (i- 结 点 ) ，537 
signal 《信号 )，295 
system call ( 系统 调用 ) 
exec, 289 
fork, 290, 289 
unmarshalling (解码 ) 158 
unreliable multicast (不 可 车 组 播 )，171 
unstructured peer-to-peer( 无 结构 化 的 对 等 )，445 ~447 
epidemic protocol 〈 传染 病 协议 ) ，447 
expanded ring search (扩展 环 搜索 ) ，447 
Gnutella, 447 ~448 
gossip 《闲聊 ) 447 
random walk ( 随机 漫步 ) 447 
upeall (上 调 ) ，302 
update semantics (更 新 语义 ) 528, 554 
URI， 参 见 Uniform Resource Indentifer 
URL, # Uniform Resource Locator 
URN, M, Uniform Resource Name 
user mode (用 户 模式 ) 285 
UTC， 参 见 Coordinated Universal Time 
UTF， 参 见 Universal Transfer Format 
utility computing (效用 计算 ) ，13 ~14 
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V system (V 系统 ) 
remote execution ( 远程 执行 ) 289 
support for groups 〈 对 组 的 支持 ) 775 
validity 《有 效 性 ) 
of message queues (消息 队列 的 )，255 
of multicast delivery (组 播 传 递 的 ) 236, 648 
of reliable communication ( 可靠 通信 的 ) 71 
vector clock 《向量 时 钟 ) ，609 
vector timestamp (向量 时 间 稚 ) 609 
comparison ( 比较 ) 610 
merging operation (合并 操作 ) , 609 
Verisign Corporation (Verisign 公司 ) 500 


videoconferencing 〈 视频 会 议 ) 884, 887 
CU-SeeMe application (CU-SeeMe 应 用 ) ，884 
iChat AV application (iChat AV 应 用 ) 884 
NetMeeting application (网 络 会 议 应 用 ) 884 
video-on-demand service (视频 点 播 服务 ) 884 
view synchronous group communication 《视图 同步 组 通信 ) 238 
view, of group (4121, 4189), $I group, view 
view- synchronous group communication (视图 同步 的 组 通 
信 ) ，773 ~775 
virtual circuit ( EM), 97 
virtual file system (VFS, SEIU RAE), AIL Network 
File System (NFS) 
virtual machine (虚拟 机 ) 17 
virtual machine monitor ( 虚拟 机 监控 器 ) 319 
virtual memory management ( 虚拟 内 存 管理 ) 
in Xen (Xen 中 的 ) ，325 ~326 
virtual partition ( 虚拟 分 区 ) 811 ~ 814 
virtual private network (VPN， 虚 拟 私 网 ) 85, 128 
virtual processor (虚拟 处 理 器 ) ，301 
virtualization (虚拟 化 》 
condition for virtualization ( Popek and Goldberg) (虚拟 化 
的 条 件 ) , 322 
Denali, 320 
full virtualization 〈 完 全 串 拟 化 ) 319 
Hypervisor (超级 管理 程序 ) 319 
Microsoft Virtual Server ( 微软 虚拟 服务 器 ) 320 
Parallels ，320 
Paravirtualization 〈《 半 虚拟 化 ) 320, 323 
sensitive instruction (敏感 指令 ) 322 
system level (系统 层 ) 318 ~320 
virtual machine monitor ( 虚拟 机 监控 器 ) , 319 
VMWare, 320 
Xen, 320 ~331 
virtually synchronous group communication (虚拟 同步 组 通 
4), 775 
VMWare, 320 
Voice over IP (IP HEK), 177, 885 
Skype application (Skype 应 用 ) 885 
Vonage application (Vonage 应 用 ) , 885 
VOIP, J Voice over IP 
volatile system (3448 RYE), 821 ~826 
voting 〈 投票) 639 
VPN, ÆJ virtual private network 
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WAN, ÄR, network, wide area 
wearable computing (可 穿戴 计算 ) 820 
Web, 26 ~33 
caching 〈 高 速 缓存 ) 449 ~451 
semantice (语义 的 ) 844 
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Web presence (Web 存在 ) ，872 
Web search (Web 搜索 ),， 3, 3 ~5 
Web services (Web 服务 ) 32, 43, 60, 384 ~399 
choreography ( 编排 ) 412 
communication patterns (通信 和 模式) 384 
compared with CORBA (453 CORBA 比较 ) 398, 399 
compared with distributed object model (与 分 布 式 对 象 模 
型 比较 ) ，393 
coordination 《协调 ) 411 ~ 413 
directory service ( 目录 服务 ) 404 ~ 406 
dispatcher 〈 分 发 器 ) ，398 
dynamic invocation (动态 调用 ) ，387 
dynamic invocation interface (动态 调用 接口 ) ，397 
dynamic proxy (动态 代理 ) 397 
infrastructure ( 基础 设施 ) 383 
Java client program (Java 客户 程序 ) 396 
Java server program (Java 服务 器 程序 ) 395 
loose coupling (HRA), 385 
model (模型 ) 393 
no servants 〈 没 有 伺服 器 ) 394 
proxy 〈 代 理 ) 387, 396 
REST (representational state transfer) , 384, 386 
service description (服务 描述 )，400 ~ 404 
sevice interface in Java (Java 中 的 服务 接口 ) 395 
servlet container (servlet 容器) 396 
skeleton (32), 398 
SOAP, 384, 387 ~393 
SOAP with Java (#7 Java 的 SOAP), 394 ~398 
Uniform Resource Identifier (统一 资源 标识 符 ) 382 
Web services description language (WSDL, Web 服务 描述 语 
言 ) 400 ~404 
binding (#5), 403 
concrete part ( 具体 部 分 ) 403 
interface (接口 ) 402 
main elements ( 主要 元 素 ) 400 
operations or messages ( 操作 或 消息 ) 401 
service (R), 404 
Web-based multimedia (基于 Web 的 多 媒体 ) 884 
Webcasting (网 络 播放 ) 12 
WebNFS, 558 
Websphere MQ, 256 
hub-and-spoke topology (集线器 和 辐 条 拓扑 ) ，258 
message channel 〈 消息 渠道 ) 257 
message channel agent (消息 渠道 代理 ) ，257 
Message Queue Interface ( 消息 队列 接口 ) 256 
queue manager ( 队列 管理 器 ) ，256 
WEP WiFi security (WEP WiFi 安全 ) 515 ~517 
wide area network (广域网 ) ， 参 见 network, wide area 
WiFi network ( WiFi 网 络 ) ，129，135 ~138, 515 ~517 
Wikipedia (维基 百科 ) 
concurrency control (并 发 控制 ) 719 
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WiMAX network (WiMAX 网络) 130 

WLAN (wireless local area network ， 无 线 局 域 网 ) ， 88 

WMAN ( wireless metropolitan area network， 无 线 城 域 
网 ) ，88 

World Wide Web (万 维 网 ) ， 参 见 Web 

WSDL， 参 见 Web services description language 

WWAN (wirekess wide area network ， 无 线 广域网 ) 88 
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XK. 500 directory service (X. 500 目录 服务 ) 588 ~ 592 
directory information tree ( 目录 信息 树 ) 589 
LDAP, 592 

X. 509 certificate (X. 509 证 书 ) 499 

XDR, #3 Sun RPC 
external data representation ( 外 部 数据 表示 ) 

Xen，320 ~331, 419 
device management 〈 设 备 管理 ) 327 ~329 
domain (3%), 322 
grant table (授权 表 ) , 328 
hypercall (超级 调用 ) 323 
hypervisor ( 超级 管理 程序 ) ，321 
TO rings (I/O FF), 328 
isolation 〈 隔离 ) 321 
pseudo- physical memory (人 擅 物 理 内 存 ) 325 


scheduling (调度 ) 322 ~325 
split device driver (分 离 的 设备 驱动 器 ) , 327 
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